Parakeet TDT

Parakeet TDT는 CoreML을 통해 Apple Silicon의 Neural Engine에서 실행되도록 적응된 NVIDIA의 음성 인식 모델입니다. FastConformer 인코더와 Token-and-Duration Transducer(TDT) 디코더를 짝지어 정확하고 효율적인 전사를 제공합니다.

아키텍처

이 모델은 추론 중에 함께 동작하는 세 개의 CoreML 모델 파일로 분할되어 있습니다:

구성 요소설명
EncoderFastConformer — 오디오 특징 추출을 위한 컨볼루셔널 + 셀프 어텐션 레이어
Decoder텍스트 토큰 이력을 유지하는 예측 네트워크
Joint인코더와 디코더의 출력을 결합하여 토큰 확률을 생성

인코더는 최소한의 메모리 풋프린트와 빠른 Neural Engine 실행을 위해 INT8로 양자화되어 있습니다. 디코더와 조인트 네트워크는 양자화가 필요 없을 만큼 작습니다.

모델 변형

모델크기HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 MBaufklarer/Parakeet-TDT-v3-CoreML-INT8

성능

지표
실시간 대비 속도Apple Silicon Neural Engine에서 실시간의 약 32배
컴퓨팅 타깃Neural Engine (CoreML을 통해)
양자화INT8

CLI 사용법

기본값인 Qwen3-ASR 대신 Parakeet TDT를 선택하려면 --engine parakeet 플래그를 사용합니다:

.build/release/audio transcribe recording.wav --engine parakeet

CoreML vs MLX

Parakeet TDT는 CoreML을 사용하여 Neural Engine에서 실행되며, Qwen3-ASR은 MLX를 사용하여 Metal GPU에서 실행됩니다. 두 방식은 서로 다른 트레이드오프를 가집니다:

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
컴퓨팅 타깃Neural EngineMetal GPU
속도실시간의 약 32배실시간의 약 17배
아키텍처FastConformer + TDT인코더-디코더 트랜스포머
다언어영어 중심다언어
양자화INT84비트 (MLX)
중요

CoreML 모델은 GPU와 독립적으로 동작하는 Neural Engine에서 실행됩니다. 즉, Parakeet TDT는 경합 없이 TTS와 같은 GPU 기반 작업과 동시에 실행될 수 있습니다.

스트리밍 변형

실시간 받아쓰기와 라이브 자막을 위해서는 Parakeet-EOU-120M을 참조하세요 — 명시적인 발화 종료 헤드를 갖춘 더 작은(120 MB) RNN-T 변형으로, 640 ms 오디오 청크에서 점진적으로 실행되도록 설계되었습니다. Parakeet TDT 0.6B와 동일한 SentencePiece 어휘를 공유하지만, 최대 처리량보다는 1초 미만의 부분 지연에 최적화되어 있습니다.

ONNX Runtime을 통해 Android 및 Linux에서도 사용할 수 있습니다.