Parakeet TDT

Parakeet TDT e o modelo de reconhecimento de fala da NVIDIA, adaptado para executar no Neural Engine do Apple Silicon via CoreML. Usa um codificador FastConformer combinado com um decodificador Token-and-Duration Transducer (TDT) para transcricao precisa e eficiente.

Arquitetura

O modelo e dividido em tres arquivos de modelo CoreML que trabalham juntos durante a inferencia:

Componente	Descricao
Codificador	FastConformer — camadas convolucionais + self-attention para extracao de caracteristicas de audio
Decodificador	Rede de predicao que mantem um historico de tokens de texto
Joint	Combina as saidas do codificador e do decodificador para produzir probabilidades de token

O codificador e quantizado em INT8 para pegada minima de memoria e execucao rapida no Neural Engine. O decodificador e a rede joint sao pequenos o suficiente para que a quantizacao nao seja necessaria.

Variantes do modelo

Modelo	Tamanho	HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)	500 MB	aufklarer/Parakeet-TDT-v3-CoreML-INT8-30s

Desempenho

Metrica	Valor
Fator de tempo real	~32x tempo real no Neural Engine do Apple Silicon
Alvo de computacao	Neural Engine (via CoreML)
Quantizacao	INT8

Uso do CLI

Use a flag --engine parakeet para selecionar o Parakeet TDT em vez do Qwen3-ASR padrao:

.build/release/speech transcribe recording.wav --engine parakeet

CoreML vs MLX

Parakeet TDT usa CoreML para executar no Neural Engine, enquanto o Qwen3-ASR usa MLX para executar na GPU Metal. As duas abordagens tem trade-offs diferentes:

	Parakeet TDT (CoreML)	Qwen3-ASR (MLX)
Alvo de computacao	Neural Engine	GPU Metal
Velocidade	~32x tempo real	~17x tempo real
Arquitetura	FastConformer + TDT	Transformer encoder-decoder
Multilingue	Focado em ingles	Multilingue
Quantizacao	INT8	4 bits (MLX)

Importante

Modelos CoreML executam no Neural Engine, que opera independentemente da GPU. Isso significa que o Parakeet TDT pode executar concorrentemente com tarefas baseadas em GPU como TTS sem contencao.

Variante em streaming

Para ditado em tempo real e legendagem ao vivo, veja Parakeet-EOU-120M — uma variante RNN-T menor (120 MB) com uma cabeca explicita de fim de enunciado, projetada para executar incrementalmente em chunks de audio de 640 ms. Compartilha o mesmo vocabulario SentencePiece do Parakeet TDT 0.6B, mas e otimizada para latencia parcial sub-segundo em vez de throughput de pico.

Tambem disponivel em Android, Linux e Windows via ONNX Runtime.