Parakeet TDT

Parakeet TDT는 CoreML을 통해 Apple Silicon의 Neural Engine에서 실행되도록 적응된 NVIDIA의 음성 인식 모델입니다. FastConformer 인코더와 Token-and-Duration Transducer(TDT) 디코더를 짝지어 정확하고 효율적인 전사를 제공합니다.

아키텍처

이 모델은 추론 중에 함께 동작하는 세 개의 CoreML 모델 파일로 분할되어 있습니다:

구성 요소	설명
Encoder	FastConformer — 오디오 특징 추출을 위한 컨볼루셔널 + 셀프 어텐션 레이어
Decoder	텍스트 토큰 이력을 유지하는 예측 네트워크
Joint	인코더와 디코더의 출력을 결합하여 토큰 확률을 생성

인코더는 최소한의 메모리 풋프린트와 빠른 Neural Engine 실행을 위해 INT8로 양자화되어 있습니다. 디코더와 조인트 네트워크는 양자화가 필요 없을 만큼 작습니다.

모델 변형

모델	크기	HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)	500 MB	aufklarer/Parakeet-TDT-v3-CoreML-INT8-30s

성능

지표	값
실시간 대비 속도	Apple Silicon Neural Engine에서 실시간의 약 32배
컴퓨팅 타깃	Neural Engine (CoreML을 통해)
양자화	INT8

CLI 사용법

기본값인 Qwen3-ASR 대신 Parakeet TDT를 선택하려면 --engine parakeet 플래그를 사용합니다:

.build/release/speech transcribe recording.wav --engine parakeet

CoreML vs MLX

Parakeet TDT는 CoreML을 사용하여 Neural Engine에서 실행되며, Qwen3-ASR은 MLX를 사용하여 Metal GPU에서 실행됩니다. 두 방식은 서로 다른 트레이드오프를 가집니다:

	Parakeet TDT (CoreML)	Qwen3-ASR (MLX)
컴퓨팅 타깃	Neural Engine	Metal GPU
속도	실시간의 약 32배	실시간의 약 17배
아키텍처	FastConformer + TDT	인코더-디코더 트랜스포머
다언어	영어 중심	다언어
양자화	INT8	4비트 (MLX)

중요

CoreML 모델은 GPU와 독립적으로 동작하는 Neural Engine에서 실행됩니다. 즉, Parakeet TDT는 경합 없이 TTS와 같은 GPU 기반 작업과 동시에 실행될 수 있습니다.

스트리밍 변형

실시간 받아쓰기와 라이브 자막을 위해서는 Parakeet-EOU-120M을 참조하세요 — 명시적인 발화 종료 헤드를 갖춘 더 작은(120 MB) RNN-T 변형으로, 640 ms 오디오 청크에서 점진적으로 실행되도록 설계되었습니다. Parakeet TDT 0.6B와 동일한 SentencePiece 어휘를 공유하지만, 최대 처리량보다는 1초 미만의 부분 지연에 최적화되어 있습니다.

ONNX Runtime을 통해 Android, Linux 및 Windows에서도 사용할 수 있습니다.