Parakeet TDT

Parakeet TDT, NVIDIA'nın konuşma tanıma modelidir; CoreML üzerinden Apple Silicon'un Neural Engine'inde çalışacak şekilde uyarlanmıştır. Doğru ve verimli yazıya dökme için FastConformer kodlayıcı ile Token-and-Duration Transducer (TDT) kod çözücüyü birleştirir.

Mimari

Model, çıkarım sırasında birlikte çalışan üç CoreML dosyasına bölünmüştür:

BileşenAçıklama
KodlayıcıFastConformer — ses öznitelik çıkarımı için konvolüsyon + self-attention katmanları
Kod çözücüMetin token geçmişini koruyan tahmin ağı
JointToken olasılıkları üretmek için kodlayıcı ve kod çözücü çıktılarını birleştirir

Kodlayıcı, asgari bellek ayak izi ve Neural Engine'de hızlı yürütme için INT8 nicemlenmiştir. Kod çözücü ve joint ağ, nicemlemeye gerek olmayacak kadar küçüktür.

Model Varyantları

ModelBoyutHuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 MBaufklarer/Parakeet-TDT-v3-CoreML-INT8

Performans

MetrikDeğer
Gerçek zamanlı faktörApple Silicon Neural Engine'de ~32x gerçek zamanlı
Hesaplama hedefiNeural Engine (CoreML üzerinden)
NicemlemeINT8

CLI Kullanımı

Varsayılan Qwen3-ASR yerine Parakeet TDT seçmek için --engine parakeet bayrağını kullanın:

.build/release/speech transcribe recording.wav --engine parakeet

CoreML ve MLX karşılaştırması

Parakeet TDT, Neural Engine'de çalışmak için CoreML kullanırken Qwen3-ASR, Metal GPU'da çalışmak için MLX kullanır. İki yaklaşımın farklı dengeleri vardır:

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
Hesaplama hedefiNeural EngineMetal GPU
Hız~32x gerçek zamanlı~17x gerçek zamanlı
MimariFastConformer + TDTKodlayıcı-kod çözücü transformer
Çok dillilikİngilizce odaklıÇok dilli
NicemlemeINT84-bit (MLX)
Önemli

CoreML modelleri, GPU'dan bağımsız çalışan Neural Engine üzerinde çalışır. Bu, Parakeet TDT'nin TTS gibi GPU tabanlı görevlerle çakışma olmadan eş zamanlı çalışabileceği anlamına gelir.

Akış varyantı

Gerçek zamanlı dikte ve canlı altyazı için Parakeet-EOU-120M sayfasına bakın — açık bir konuşma-sonu başlığıyla daha küçük (120 MB) bir RNN-T varyantıdır; 640 ms'lik ses parçaları üzerinde artımlı çalışacak şekilde tasarlanmıştır. Parakeet TDT 0.6B ile aynı SentencePiece vocabulary'sini paylaşır, ancak zirve verim yerine saniye altı kısmi gecikme için optimize edilmiştir.

Ayrıca Android ve Linux'ta ONNX Runtime üzerinden da mevcuttur.