Parakeet TDT
Parakeet TDT e o modelo de reconhecimento de fala da NVIDIA, adaptado para executar no Neural Engine do Apple Silicon via CoreML. Usa um codificador FastConformer combinado com um decodificador Token-and-Duration Transducer (TDT) para transcricao precisa e eficiente.
Arquitetura
O modelo e dividido em tres arquivos de modelo CoreML que trabalham juntos durante a inferencia:
| Componente | Descricao |
|---|---|
| Codificador | FastConformer — camadas convolucionais + self-attention para extracao de caracteristicas de audio |
| Decodificador | Rede de predicao que mantem um historico de tokens de texto |
| Joint | Combina as saidas do codificador e do decodificador para produzir probabilidades de token |
O codificador e quantizado em INT8 para pegada minima de memoria e execucao rapida no Neural Engine. O decodificador e a rede joint sao pequenos o suficiente para que a quantizacao nao seja necessaria.
Variantes do modelo
| Modelo | Tamanho | HuggingFace |
|---|---|---|
| Parakeet-TDT-0.6B (CoreML INT8) | 500 MB | aufklarer/Parakeet-TDT-v3-CoreML-INT8 |
Desempenho
| Metrica | Valor |
|---|---|
| Fator de tempo real | ~32x tempo real no Neural Engine do Apple Silicon |
| Alvo de computacao | Neural Engine (via CoreML) |
| Quantizacao | INT8 |
Uso do CLI
Use a flag --engine parakeet para selecionar o Parakeet TDT em vez do Qwen3-ASR padrao:
.build/release/audio transcribe recording.wav --engine parakeet
CoreML vs MLX
Parakeet TDT usa CoreML para executar no Neural Engine, enquanto o Qwen3-ASR usa MLX para executar na GPU Metal. As duas abordagens tem trade-offs diferentes:
| Parakeet TDT (CoreML) | Qwen3-ASR (MLX) | |
|---|---|---|
| Alvo de computacao | Neural Engine | GPU Metal |
| Velocidade | ~32x tempo real | ~17x tempo real |
| Arquitetura | FastConformer + TDT | Transformer encoder-decoder |
| Multilingue | Focado em ingles | Multilingue |
| Quantizacao | INT8 | 4 bits (MLX) |
Modelos CoreML executam no Neural Engine, que opera independentemente da GPU. Isso significa que o Parakeet TDT pode executar concorrentemente com tarefas baseadas em GPU como TTS sem contencao.
Variante em streaming
Para ditado em tempo real e legendagem ao vivo, veja Parakeet-EOU-120M — uma variante RNN-T menor (120 MB) com uma cabeca explicita de fim de enunciado, projetada para executar incrementalmente em chunks de audio de 640 ms. Compartilha o mesmo vocabulario SentencePiece do Parakeet TDT 0.6B, mas e otimizada para latencia parcial sub-segundo em vez de throughput de pico.
Tambem disponivel em Android e Linux via ONNX Runtime.