Parakeet TDT

Parakeet TDT ist NVIDIAs Spracherkennungsmodell, angepasst für die Ausführung auf der Neural Engine von Apple Silicon über CoreML. Es kombiniert einen FastConformer-Encoder mit einem Token-and-Duration-Transducer-Decoder (TDT) für präzise, effiziente Transkription.

Architektur

Das Modell ist auf drei CoreML-Modelldateien aufgeteilt, die bei der Inferenz zusammenarbeiten:

KomponenteBeschreibung
EncoderFastConformer — Faltungs- und Self-Attention-Schichten zur Audio-Merkmals-Extraktion
DecoderPrädiktionsnetzwerk, das eine Historie der Text-Tokens pflegt
JointKombiniert Encoder- und Decoder-Ausgaben zu Token-Wahrscheinlichkeiten

Der Encoder ist INT8-quantisiert für minimalen Speicherverbrauch und schnelle Ausführung auf der Neural Engine. Decoder und Joint-Netzwerk sind klein genug, dass keine Quantisierung nötig ist.

Modellvarianten

ModellGrößeHuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 MBaufklarer/Parakeet-TDT-v3-CoreML-INT8

Leistung

KennzahlWert
Echtzeitfaktor~32x Echtzeit auf der Apple-Silicon-Neural-Engine
Compute-ZielNeural Engine (über CoreML)
QuantisierungINT8

CLI-Verwendung

Verwende den Schalter --engine parakeet, um Parakeet TDT statt des Standards Qwen3-ASR auszuwählen:

.build/release/audio transcribe recording.wav --engine parakeet

CoreML vs. MLX

Parakeet TDT nutzt CoreML für die Ausführung auf der Neural Engine, während Qwen3-ASR MLX für die Metal-GPU verwendet. Die beiden Ansätze haben unterschiedliche Kompromisse:

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
Compute-ZielNeural EngineMetal GPU
Geschwindigkeit~32x Echtzeit~17x Echtzeit
ArchitekturFastConformer + TDTEncoder-Decoder-Transformer
MehrsprachigkeitEnglisch-fokussiertMehrsprachig
QuantisierungINT84-bit (MLX)
Wichtig

CoreML-Modelle laufen auf der Neural Engine, die unabhängig von der GPU arbeitet. Dadurch kann Parakeet TDT parallel zu GPU-basierten Aufgaben wie TTS ausgeführt werden, ohne sich gegenseitig zu blockieren.

Streaming-Variante

Für Echtzeit-Diktat und Live-Untertitelung siehe Parakeet-EOU-120M — eine kleinere RNN-T-Variante (120 MB) mit explizitem Äußerungsende-Kopf, entworfen für inkrementelle Verarbeitung von 640-ms-Audio-Chunks. Sie nutzt dasselbe SentencePiece-Vokabular wie Parakeet TDT 0.6B, ist aber auf Teil-Latenz unter einer Sekunde statt auf Spitzendurchsatz optimiert.

Auch verfügbar auf Android & Linux über ONNX Runtime.