Parakeet TDT
Parakeet TDT es el modelo de reconocimiento de voz de NVIDIA, adaptado para ejecutarse en el Neural Engine de Apple Silicon mediante CoreML. Usa un codificador FastConformer emparejado con un decodificador Token-and-Duration Transducer (TDT) para una transcripción precisa y eficiente.
Arquitectura
El modelo se divide en tres archivos CoreML que trabajan juntos durante la inferencia:
| Componente | Descripción |
|---|---|
| Codificador | FastConformer — capas convolucionales + auto-atención para extracción de características de audio |
| Decodificador | Red de predicción que mantiene un historial de tokens de texto |
| Joint | Combina las salidas del codificador y el decodificador para producir probabilidades de token |
El codificador está cuantizado en INT8 para una huella de memoria mínima y una ejecución rápida en Neural Engine. El decodificador y la red joint son lo suficientemente pequeños como para no necesitar cuantización.
Variantes del modelo
| Modelo | Tamaño | HuggingFace |
|---|---|---|
| Parakeet-TDT-0.6B (CoreML INT8) | 500 MB | aufklarer/Parakeet-TDT-v3-CoreML-INT8 |
Rendimiento
| Métrica | Valor |
|---|---|
| Factor tiempo real | ~32× tiempo real en Apple Silicon Neural Engine |
| Objetivo de cómputo | Neural Engine (mediante CoreML) |
| Cuantización | INT8 |
Uso de CLI
Usa el flag --engine parakeet para seleccionar Parakeet TDT en lugar del Qwen3-ASR por defecto:
.build/release/audio transcribe recording.wav --engine parakeet
CoreML vs MLX
Parakeet TDT usa CoreML para ejecutarse en el Neural Engine, mientras que Qwen3-ASR usa MLX para ejecutarse en la GPU Metal. Los dos enfoques tienen distintas ventajas y desventajas:
| Parakeet TDT (CoreML) | Qwen3-ASR (MLX) | |
|---|---|---|
| Objetivo de cómputo | Neural Engine | GPU Metal |
| Velocidad | ~32× tiempo real | ~17× tiempo real |
| Arquitectura | FastConformer + TDT | Transformer codificador-decodificador |
| Multilingüe | Enfocado en inglés | Multilingüe |
| Cuantización | INT8 | 4-bit (MLX) |
Los modelos CoreML se ejecutan en el Neural Engine, que opera de forma independiente de la GPU. Esto significa que Parakeet TDT puede ejecutarse de forma concurrente con tareas basadas en GPU como TTS sin contención.
Variante streaming
Para dictado en tiempo real y subtitulado en vivo, consulta Parakeet-EOU-120M — una variante RNN-T más pequeña (120 MB) con una cabeza explícita de fin de enunciado, diseñada para ejecutarse de forma incremental sobre chunks de audio de 640 ms. Comparte el mismo vocabulario SentencePiece que Parakeet TDT 0.6B, pero está optimizada para latencia parcial sub-segundo en vez de rendimiento máximo.
También disponible en Android y Linux mediante ONNX Runtime.