Parakeet TDT

Parakeet TDT ist NVIDIAs Spracherkennungsmodell, angepasst für die Ausführung auf der Neural Engine von Apple Silicon über CoreML. Es kombiniert einen FastConformer-Encoder mit einem Token-and-Duration-Transducer-Decoder (TDT) für präzise, effiziente Transkription.

Architektur

Das Modell ist auf drei CoreML-Modelldateien aufgeteilt, die bei der Inferenz zusammenarbeiten:

Komponente	Beschreibung
Encoder	FastConformer — Faltungs- und Self-Attention-Schichten zur Audio-Merkmals-Extraktion
Decoder	Prädiktionsnetzwerk, das eine Historie der Text-Tokens pflegt
Joint	Kombiniert Encoder- und Decoder-Ausgaben zu Token-Wahrscheinlichkeiten

Der Encoder ist INT8-quantisiert für minimalen Speicherverbrauch und schnelle Ausführung auf der Neural Engine. Decoder und Joint-Netzwerk sind klein genug, dass keine Quantisierung nötig ist.

Modellvarianten

Modell	Größe	HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)	500 MB	aufklarer/Parakeet-TDT-v3-CoreML-INT8-30s

Leistung

Kennzahl	Wert
Echtzeitfaktor	~32x Echtzeit auf der Apple-Silicon-Neural-Engine
Compute-Ziel	Neural Engine (über CoreML)
Quantisierung	INT8

CLI-Verwendung

Verwende den Schalter --engine parakeet, um Parakeet TDT statt des Standards Qwen3-ASR auszuwählen:

.build/release/speech transcribe recording.wav --engine parakeet

CoreML vs. MLX

Parakeet TDT nutzt CoreML für die Ausführung auf der Neural Engine, während Qwen3-ASR MLX für die Metal-GPU verwendet. Die beiden Ansätze haben unterschiedliche Kompromisse:

	Parakeet TDT (CoreML)	Qwen3-ASR (MLX)
Compute-Ziel	Neural Engine	Metal GPU
Geschwindigkeit	~32x Echtzeit	~17x Echtzeit
Architektur	FastConformer + TDT	Encoder-Decoder-Transformer
Mehrsprachigkeit	Englisch-fokussiert	Mehrsprachig
Quantisierung	INT8	4-bit (MLX)

Wichtig

CoreML-Modelle laufen auf der Neural Engine, die unabhängig von der GPU arbeitet. Dadurch kann Parakeet TDT parallel zu GPU-basierten Aufgaben wie TTS ausgeführt werden, ohne sich gegenseitig zu blockieren.

Streaming-Variante

Für Echtzeit-Diktat und Live-Untertitelung siehe Parakeet-EOU-120M — eine kleinere RNN-T-Variante (120 MB) mit explizitem Äußerungsende-Kopf, entworfen für inkrementelle Verarbeitung von 640-ms-Audio-Chunks. Sie nutzt dasselbe SentencePiece-Vokabular wie Parakeet TDT 0.6B, ist aber auf Teil-Latenz unter einer Sekunde statt auf Spitzendurchsatz optimiert.

Es ist mehrsprachig (25 europäische Sprachen) und schlank: Auf einem Smartphone belegt es etwa 232 MB Arbeitsspeicher und läuft problemlos in Echtzeit – rund 5–6× kleiner als Parakeet TDT 0.6B. Auf Android, Linux und Windows läuft es über ONNX Runtime mit soniqo/Parakeet-EOU-120M-ONNX-INT8.

Auch auf Android sowie auf Linux und Windows über Speech Core (ONNX Runtime) verfügbar.