Parakeet TDT
Parakeet TDT는 CoreML을 통해 Apple Silicon의 Neural Engine에서 실행되도록 적응된 NVIDIA의 음성 인식 모델입니다. FastConformer 인코더와 Token-and-Duration Transducer(TDT) 디코더를 짝지어 정확하고 효율적인 전사를 제공합니다.
아키텍처
이 모델은 추론 중에 함께 동작하는 세 개의 CoreML 모델 파일로 분할되어 있습니다:
| 구성 요소 | 설명 |
|---|---|
| Encoder | FastConformer — 오디오 특징 추출을 위한 컨볼루셔널 + 셀프 어텐션 레이어 |
| Decoder | 텍스트 토큰 이력을 유지하는 예측 네트워크 |
| Joint | 인코더와 디코더의 출력을 결합하여 토큰 확률을 생성 |
인코더는 최소한의 메모리 풋프린트와 빠른 Neural Engine 실행을 위해 INT8로 양자화되어 있습니다. 디코더와 조인트 네트워크는 양자화가 필요 없을 만큼 작습니다.
모델 변형
| 모델 | 크기 | HuggingFace |
|---|---|---|
| Parakeet-TDT-0.6B (CoreML INT8) | 500 MB | aufklarer/Parakeet-TDT-v3-CoreML-INT8 |
성능
| 지표 | 값 |
|---|---|
| 실시간 대비 속도 | Apple Silicon Neural Engine에서 실시간의 약 32배 |
| 컴퓨팅 타깃 | Neural Engine (CoreML을 통해) |
| 양자화 | INT8 |
CLI 사용법
기본값인 Qwen3-ASR 대신 Parakeet TDT를 선택하려면 --engine parakeet 플래그를 사용합니다:
.build/release/audio transcribe recording.wav --engine parakeet
CoreML vs MLX
Parakeet TDT는 CoreML을 사용하여 Neural Engine에서 실행되며, Qwen3-ASR은 MLX를 사용하여 Metal GPU에서 실행됩니다. 두 방식은 서로 다른 트레이드오프를 가집니다:
| Parakeet TDT (CoreML) | Qwen3-ASR (MLX) | |
|---|---|---|
| 컴퓨팅 타깃 | Neural Engine | Metal GPU |
| 속도 | 실시간의 약 32배 | 실시간의 약 17배 |
| 아키텍처 | FastConformer + TDT | 인코더-디코더 트랜스포머 |
| 다언어 | 영어 중심 | 다언어 |
| 양자화 | INT8 | 4비트 (MLX) |
CoreML 모델은 GPU와 독립적으로 동작하는 Neural Engine에서 실행됩니다. 즉, Parakeet TDT는 경합 없이 TTS와 같은 GPU 기반 작업과 동시에 실행될 수 있습니다.
스트리밍 변형
실시간 받아쓰기와 라이브 자막을 위해서는 Parakeet-EOU-120M을 참조하세요 — 명시적인 발화 종료 헤드를 갖춘 더 작은(120 MB) RNN-T 변형으로, 640 ms 오디오 청크에서 점진적으로 실행되도록 설계되었습니다. Parakeet TDT 0.6B와 동일한 SentencePiece 어휘를 공유하지만, 최대 처리량보다는 1초 미만의 부분 지연에 최적화되어 있습니다.
ONNX Runtime을 통해 Android 및 Linux에서도 사용할 수 있습니다.