Parakeet TDT
Parakeet TDT est le modèle de reconnaissance vocale de NVIDIA, adapté pour s'exécuter sur le Neural Engine d'Apple Silicon via CoreML. Il utilise un encodeur FastConformer associé à un décodeur Token-and-Duration Transducer (TDT) pour une transcription précise et efficace.
Architecture
Le modèle est réparti sur trois fichiers CoreML qui fonctionnent de concert pendant l'inférence :
| Composant | Description |
|---|---|
| Encodeur | FastConformer — couches convolutives et d'auto-attention pour l'extraction de caractéristiques audio |
| Décodeur | Réseau de prédiction qui maintient un historique de tokens de texte |
| Joint | Combine les sorties de l'encodeur et du décodeur pour produire les probabilités de tokens |
L'encodeur est quantifié en INT8 pour une empreinte mémoire minimale et une exécution rapide sur le Neural Engine. Le décodeur et le réseau joint sont suffisamment petits pour ne pas nécessiter de quantification.
Variantes du modèle
| Modèle | Taille | HuggingFace |
|---|---|---|
| Parakeet-TDT-0.6B (CoreML INT8) | 500 Mo | aufklarer/Parakeet-TDT-v3-CoreML-INT8 |
Performance
| Métrique | Valeur |
|---|---|
| Facteur temps réel | ~32× temps réel sur le Neural Engine Apple Silicon |
| Cible de calcul | Neural Engine (via CoreML) |
| Quantification | INT8 |
Utilisation en CLI
Utilisez l'option --engine parakeet pour sélectionner Parakeet TDT au lieu du Qwen3-ASR par défaut :
.build/release/audio transcribe recording.wav --engine parakeet
CoreML vs MLX
Parakeet TDT utilise CoreML pour s'exécuter sur le Neural Engine, tandis que Qwen3-ASR utilise MLX pour s'exécuter sur le GPU Metal. Les deux approches ont des compromis différents :
| Parakeet TDT (CoreML) | Qwen3-ASR (MLX) | |
|---|---|---|
| Cible de calcul | Neural Engine | GPU Metal |
| Vitesse | ~32× temps réel | ~17× temps réel |
| Architecture | FastConformer + TDT | Transformeur encodeur-décodeur |
| Multilingue | Axé sur l'anglais | Multilingue |
| Quantification | INT8 | 4 bits (MLX) |
Les modèles CoreML s'exécutent sur le Neural Engine, qui fonctionne indépendamment du GPU. Cela signifie que Parakeet TDT peut s'exécuter en parallèle avec des tâches basées sur le GPU comme le TTS, sans contention.
Variante streaming
Pour la dictée temps réel et le sous-titrage en direct, voir Parakeet-EOU-120M — une variante RNN-T plus petite (120 Mo) dotée d'une tête explicite de fin d'énoncé, conçue pour s'exécuter de façon incrémentale sur des fragments audio de 640 ms. Elle partage le même vocabulaire SentencePiece que Parakeet TDT 0.6B mais est optimisée pour une latence de partiels sous la seconde plutôt que pour le débit maximal.
Également disponible sur Android et Linux via ONNX Runtime.