Parakeet TDT

Parakeet TDT est le modèle de reconnaissance vocale de NVIDIA, adapté pour s'exécuter sur le Neural Engine d'Apple Silicon via CoreML. Il utilise un encodeur FastConformer associé à un décodeur Token-and-Duration Transducer (TDT) pour une transcription précise et efficace.

Architecture

Le modèle est réparti sur trois fichiers CoreML qui fonctionnent de concert pendant l'inférence :

ComposantDescription
EncodeurFastConformer — couches convolutives et d'auto-attention pour l'extraction de caractéristiques audio
DécodeurRéseau de prédiction qui maintient un historique de tokens de texte
JointCombine les sorties de l'encodeur et du décodeur pour produire les probabilités de tokens

L'encodeur est quantifié en INT8 pour une empreinte mémoire minimale et une exécution rapide sur le Neural Engine. Le décodeur et le réseau joint sont suffisamment petits pour ne pas nécessiter de quantification.

Variantes du modèle

ModèleTailleHuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 Moaufklarer/Parakeet-TDT-v3-CoreML-INT8

Performance

MétriqueValeur
Facteur temps réel~32× temps réel sur le Neural Engine Apple Silicon
Cible de calculNeural Engine (via CoreML)
QuantificationINT8

Utilisation en CLI

Utilisez l'option --engine parakeet pour sélectionner Parakeet TDT au lieu du Qwen3-ASR par défaut :

.build/release/audio transcribe recording.wav --engine parakeet

CoreML vs MLX

Parakeet TDT utilise CoreML pour s'exécuter sur le Neural Engine, tandis que Qwen3-ASR utilise MLX pour s'exécuter sur le GPU Metal. Les deux approches ont des compromis différents :

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
Cible de calculNeural EngineGPU Metal
Vitesse~32× temps réel~17× temps réel
ArchitectureFastConformer + TDTTransformeur encodeur-décodeur
MultilingueAxé sur l'anglaisMultilingue
QuantificationINT84 bits (MLX)
Important

Les modèles CoreML s'exécutent sur le Neural Engine, qui fonctionne indépendamment du GPU. Cela signifie que Parakeet TDT peut s'exécuter en parallèle avec des tâches basées sur le GPU comme le TTS, sans contention.

Variante streaming

Pour la dictée temps réel et le sous-titrage en direct, voir Parakeet-EOU-120M — une variante RNN-T plus petite (120 Mo) dotée d'une tête explicite de fin d'énoncé, conçue pour s'exécuter de façon incrémentale sur des fragments audio de 640 ms. Elle partage le même vocabulaire SentencePiece que Parakeet TDT 0.6B mais est optimisée pour une latence de partiels sous la seconde plutôt que pour le débit maximal.

Également disponible sur Android et Linux via ONNX Runtime.