Parakeet TDT

Parakeet TDT est le modèle de reconnaissance vocale de NVIDIA, adapté pour s'exécuter sur le Neural Engine d'Apple Silicon via CoreML. Il utilise un encodeur FastConformer associé à un décodeur Token-and-Duration Transducer (TDT) pour une transcription précise et efficace.

Architecture

Le modèle est réparti sur trois fichiers CoreML qui fonctionnent de concert pendant l'inférence :

Composant	Description
Encodeur	FastConformer — couches convolutives et d'auto-attention pour l'extraction de caractéristiques audio
Décodeur	Réseau de prédiction qui maintient un historique de tokens de texte
Joint	Combine les sorties de l'encodeur et du décodeur pour produire les probabilités de tokens

L'encodeur est quantifié en INT8 pour une empreinte mémoire minimale et une exécution rapide sur le Neural Engine. Le décodeur et le réseau joint sont suffisamment petits pour ne pas nécessiter de quantification.

Variantes du modèle

Modèle	Taille	HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)	500 Mo	aufklarer/Parakeet-TDT-v3-CoreML-INT8-30s

Performance

Métrique	Valeur
Facteur temps réel	~32× temps réel sur le Neural Engine Apple Silicon
Cible de calcul	Neural Engine (via CoreML)
Quantification	INT8

Utilisation en CLI

Utilisez l'option --engine parakeet pour sélectionner Parakeet TDT au lieu du Qwen3-ASR par défaut :

.build/release/speech transcribe recording.wav --engine parakeet

CoreML vs MLX

Parakeet TDT utilise CoreML pour s'exécuter sur le Neural Engine, tandis que Qwen3-ASR utilise MLX pour s'exécuter sur le GPU Metal. Les deux approches ont des compromis différents :

	Parakeet TDT (CoreML)	Qwen3-ASR (MLX)
Cible de calcul	Neural Engine	GPU Metal
Vitesse	~32× temps réel	~17× temps réel
Architecture	FastConformer + TDT	Transformeur encodeur-décodeur
Multilingue	Axé sur l'anglais	Multilingue
Quantification	INT8	4 bits (MLX)

Important

Les modèles CoreML s'exécutent sur le Neural Engine, qui fonctionne indépendamment du GPU. Cela signifie que Parakeet TDT peut s'exécuter en parallèle avec des tâches basées sur le GPU comme le TTS, sans contention.

Variante streaming

Pour la dictée temps réel et le sous-titrage en direct, voir Parakeet-EOU-120M — une variante RNN-T plus petite (120 Mo) dotée d'une tête explicite de fin d'énoncé, conçue pour s'exécuter de façon incrémentale sur des fragments audio de 640 ms. Elle partage le même vocabulaire SentencePiece que Parakeet TDT 0.6B mais est optimisée pour une latence de partiels sous la seconde plutôt que pour le débit maximal.

Également disponible sur Android, Linux et Windows via ONNX Runtime.