Parakeet TDT
Parakeet TDT, NVIDIA'nın konuşma tanıma modelidir; CoreML üzerinden Apple Silicon'un Neural Engine'inde çalışacak şekilde uyarlanmıştır. Doğru ve verimli yazıya dökme için FastConformer kodlayıcı ile Token-and-Duration Transducer (TDT) kod çözücüyü birleştirir.
Mimari
Model, çıkarım sırasında birlikte çalışan üç CoreML dosyasına bölünmüştür:
| Bileşen | Açıklama |
|---|---|
| Kodlayıcı | FastConformer — ses öznitelik çıkarımı için konvolüsyon + self-attention katmanları |
| Kod çözücü | Metin token geçmişini koruyan tahmin ağı |
| Joint | Token olasılıkları üretmek için kodlayıcı ve kod çözücü çıktılarını birleştirir |
Kodlayıcı, asgari bellek ayak izi ve Neural Engine'de hızlı yürütme için INT8 nicemlenmiştir. Kod çözücü ve joint ağ, nicemlemeye gerek olmayacak kadar küçüktür.
Model Varyantları
| Model | Boyut | HuggingFace |
|---|---|---|
| Parakeet-TDT-0.6B (CoreML INT8) | 500 MB | aufklarer/Parakeet-TDT-v3-CoreML-INT8 |
Performans
| Metrik | Değer |
|---|---|
| Gerçek zamanlı faktör | Apple Silicon Neural Engine'de ~32x gerçek zamanlı |
| Hesaplama hedefi | Neural Engine (CoreML üzerinden) |
| Nicemleme | INT8 |
CLI Kullanımı
Varsayılan Qwen3-ASR yerine Parakeet TDT seçmek için --engine parakeet bayrağını kullanın:
.build/release/speech transcribe recording.wav --engine parakeet
CoreML ve MLX karşılaştırması
Parakeet TDT, Neural Engine'de çalışmak için CoreML kullanırken Qwen3-ASR, Metal GPU'da çalışmak için MLX kullanır. İki yaklaşımın farklı dengeleri vardır:
| Parakeet TDT (CoreML) | Qwen3-ASR (MLX) | |
|---|---|---|
| Hesaplama hedefi | Neural Engine | Metal GPU |
| Hız | ~32x gerçek zamanlı | ~17x gerçek zamanlı |
| Mimari | FastConformer + TDT | Kodlayıcı-kod çözücü transformer |
| Çok dillilik | İngilizce odaklı | Çok dilli |
| Nicemleme | INT8 | 4-bit (MLX) |
CoreML modelleri, GPU'dan bağımsız çalışan Neural Engine üzerinde çalışır. Bu, Parakeet TDT'nin TTS gibi GPU tabanlı görevlerle çakışma olmadan eş zamanlı çalışabileceği anlamına gelir.
Akış varyantı
Gerçek zamanlı dikte ve canlı altyazı için Parakeet-EOU-120M sayfasına bakın — açık bir konuşma-sonu başlığıyla daha küçük (120 MB) bir RNN-T varyantıdır; 640 ms'lik ses parçaları üzerinde artımlı çalışacak şekilde tasarlanmıştır. Parakeet TDT 0.6B ile aynı SentencePiece vocabulary'sini paylaşır, ancak zirve verim yerine saniye altı kısmi gecikme için optimize edilmiştir.
Ayrıca Android ve Linux'ta ONNX Runtime üzerinden da mevcuttur.