Parakeet TDT

Parakeet TDT es el modelo de reconocimiento de voz de NVIDIA, adaptado para ejecutarse en el Neural Engine de Apple Silicon mediante CoreML. Usa un codificador FastConformer emparejado con un decodificador Token-and-Duration Transducer (TDT) para una transcripción precisa y eficiente.

Arquitectura

El modelo se divide en tres archivos CoreML que trabajan juntos durante la inferencia:

ComponenteDescripción
CodificadorFastConformer — capas convolucionales + auto-atención para extracción de características de audio
DecodificadorRed de predicción que mantiene un historial de tokens de texto
JointCombina las salidas del codificador y el decodificador para producir probabilidades de token

El codificador está cuantizado en INT8 para una huella de memoria mínima y una ejecución rápida en Neural Engine. El decodificador y la red joint son lo suficientemente pequeños como para no necesitar cuantización.

Variantes del modelo

ModeloTamañoHuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 MBaufklarer/Parakeet-TDT-v3-CoreML-INT8

Rendimiento

MétricaValor
Factor tiempo real~32× tiempo real en Apple Silicon Neural Engine
Objetivo de cómputoNeural Engine (mediante CoreML)
CuantizaciónINT8

Uso de CLI

Usa el flag --engine parakeet para seleccionar Parakeet TDT en lugar del Qwen3-ASR por defecto:

.build/release/audio transcribe recording.wav --engine parakeet

CoreML vs MLX

Parakeet TDT usa CoreML para ejecutarse en el Neural Engine, mientras que Qwen3-ASR usa MLX para ejecutarse en la GPU Metal. Los dos enfoques tienen distintas ventajas y desventajas:

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
Objetivo de cómputoNeural EngineGPU Metal
Velocidad~32× tiempo real~17× tiempo real
ArquitecturaFastConformer + TDTTransformer codificador-decodificador
MultilingüeEnfocado en inglésMultilingüe
CuantizaciónINT84-bit (MLX)
Importante

Los modelos CoreML se ejecutan en el Neural Engine, que opera de forma independiente de la GPU. Esto significa que Parakeet TDT puede ejecutarse de forma concurrente con tareas basadas en GPU como TTS sin contención.

Variante streaming

Para dictado en tiempo real y subtitulado en vivo, consulta Parakeet-EOU-120M — una variante RNN-T más pequeña (120 MB) con una cabeza explícita de fin de enunciado, diseñada para ejecutarse de forma incremental sobre chunks de audio de 640 ms. Comparte el mismo vocabulario SentencePiece que Parakeet TDT 0.6B, pero está optimizada para latencia parcial sub-segundo en vez de rendimiento máximo.

También disponible en Android y Linux mediante ONNX Runtime.