Parakeet TDT

Parakeet TDT e o modelo de reconhecimento de fala da NVIDIA, adaptado para executar no Neural Engine do Apple Silicon via CoreML. Usa um codificador FastConformer combinado com um decodificador Token-and-Duration Transducer (TDT) para transcricao precisa e eficiente.

Arquitetura

O modelo e dividido em tres arquivos de modelo CoreML que trabalham juntos durante a inferencia:

ComponenteDescricao
CodificadorFastConformer — camadas convolucionais + self-attention para extracao de caracteristicas de audio
DecodificadorRede de predicao que mantem um historico de tokens de texto
JointCombina as saidas do codificador e do decodificador para produzir probabilidades de token

O codificador e quantizado em INT8 para pegada minima de memoria e execucao rapida no Neural Engine. O decodificador e a rede joint sao pequenos o suficiente para que a quantizacao nao seja necessaria.

Variantes do modelo

ModeloTamanhoHuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 MBaufklarer/Parakeet-TDT-v3-CoreML-INT8

Desempenho

MetricaValor
Fator de tempo real~32x tempo real no Neural Engine do Apple Silicon
Alvo de computacaoNeural Engine (via CoreML)
QuantizacaoINT8

Uso do CLI

Use a flag --engine parakeet para selecionar o Parakeet TDT em vez do Qwen3-ASR padrao:

.build/release/audio transcribe recording.wav --engine parakeet

CoreML vs MLX

Parakeet TDT usa CoreML para executar no Neural Engine, enquanto o Qwen3-ASR usa MLX para executar na GPU Metal. As duas abordagens tem trade-offs diferentes:

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
Alvo de computacaoNeural EngineGPU Metal
Velocidade~32x tempo real~17x tempo real
ArquiteturaFastConformer + TDTTransformer encoder-decoder
MultilingueFocado em inglesMultilingue
QuantizacaoINT84 bits (MLX)
Importante

Modelos CoreML executam no Neural Engine, que opera independentemente da GPU. Isso significa que o Parakeet TDT pode executar concorrentemente com tarefas baseadas em GPU como TTS sem contencao.

Variante em streaming

Para ditado em tempo real e legendagem ao vivo, veja Parakeet-EOU-120M — uma variante RNN-T menor (120 MB) com uma cabeca explicita de fim de enunciado, projetada para executar incrementalmente em chunks de audio de 640 ms. Compartilha o mesmo vocabulario SentencePiece do Parakeet TDT 0.6B, mas e otimizada para latencia parcial sub-segundo em vez de throughput de pico.

Tambem disponivel em Android e Linux via ONNX Runtime.