Parakeet TDT

Parakeet TDT es el modelo de reconocimiento de voz de NVIDIA, adaptado para ejecutarse en el Neural Engine de Apple Silicon mediante CoreML. Usa un codificador FastConformer emparejado con un decodificador Token-and-Duration Transducer (TDT) para una transcripción precisa y eficiente.

Arquitectura

El modelo se divide en tres archivos CoreML que trabajan juntos durante la inferencia:

Componente	Descripción
Codificador	FastConformer — capas convolucionales + auto-atención para extracción de características de audio
Decodificador	Red de predicción que mantiene un historial de tokens de texto
Joint	Combina las salidas del codificador y el decodificador para producir probabilidades de token

El codificador está cuantizado en INT8 para una huella de memoria mínima y una ejecución rápida en Neural Engine. El decodificador y la red joint son lo suficientemente pequeños como para no necesitar cuantización.

Variantes del modelo

Modelo	Tamaño	HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)	500 MB	aufklarer/Parakeet-TDT-v3-CoreML-INT8-30s

Rendimiento

Métrica	Valor
Factor tiempo real	~32× tiempo real en Apple Silicon Neural Engine
Objetivo de cómputo	Neural Engine (mediante CoreML)
Cuantización	INT8

Uso de CLI

Usa el flag --engine parakeet para seleccionar Parakeet TDT en lugar del Qwen3-ASR por defecto:

.build/release/speech transcribe recording.wav --engine parakeet

CoreML vs MLX

Parakeet TDT usa CoreML para ejecutarse en el Neural Engine, mientras que Qwen3-ASR usa MLX para ejecutarse en la GPU Metal. Los dos enfoques tienen distintas ventajas y desventajas:

	Parakeet TDT (CoreML)	Qwen3-ASR (MLX)
Objetivo de cómputo	Neural Engine	GPU Metal
Velocidad	~32× tiempo real	~17× tiempo real
Arquitectura	FastConformer + TDT	Transformer codificador-decodificador
Multilingüe	Enfocado en inglés	Multilingüe
Cuantización	INT8	4-bit (MLX)

Importante

Los modelos CoreML se ejecutan en el Neural Engine, que opera de forma independiente de la GPU. Esto significa que Parakeet TDT puede ejecutarse de forma concurrente con tareas basadas en GPU como TTS sin contención.

Variante streaming

Para dictado en tiempo real y subtitulado en vivo, consulta Parakeet-EOU-120M — una variante RNN-T más pequeña (120 MB) con una cabeza explícita de fin de enunciado, diseñada para ejecutarse de forma incremental sobre chunks de audio de 640 ms. Comparte el mismo vocabulario SentencePiece que Parakeet TDT 0.6B, pero está optimizada para latencia parcial sub-segundo en vez de rendimiento máximo.

También disponible en Android, Linux y Windows mediante ONNX Runtime.