Parakeet TDT
Parakeet TDT ist NVIDIAs Spracherkennungsmodell, angepasst für die Ausführung auf der Neural Engine von Apple Silicon über CoreML. Es kombiniert einen FastConformer-Encoder mit einem Token-and-Duration-Transducer-Decoder (TDT) für präzise, effiziente Transkription.
Architektur
Das Modell ist auf drei CoreML-Modelldateien aufgeteilt, die bei der Inferenz zusammenarbeiten:
| Komponente | Beschreibung |
|---|---|
| Encoder | FastConformer — Faltungs- und Self-Attention-Schichten zur Audio-Merkmals-Extraktion |
| Decoder | Prädiktionsnetzwerk, das eine Historie der Text-Tokens pflegt |
| Joint | Kombiniert Encoder- und Decoder-Ausgaben zu Token-Wahrscheinlichkeiten |
Der Encoder ist INT8-quantisiert für minimalen Speicherverbrauch und schnelle Ausführung auf der Neural Engine. Decoder und Joint-Netzwerk sind klein genug, dass keine Quantisierung nötig ist.
Modellvarianten
| Modell | Größe | HuggingFace |
|---|---|---|
| Parakeet-TDT-0.6B (CoreML INT8) | 500 MB | aufklarer/Parakeet-TDT-v3-CoreML-INT8 |
Leistung
| Kennzahl | Wert |
|---|---|
| Echtzeitfaktor | ~32x Echtzeit auf der Apple-Silicon-Neural-Engine |
| Compute-Ziel | Neural Engine (über CoreML) |
| Quantisierung | INT8 |
CLI-Verwendung
Verwende den Schalter --engine parakeet, um Parakeet TDT statt des Standards Qwen3-ASR auszuwählen:
.build/release/audio transcribe recording.wav --engine parakeet
CoreML vs. MLX
Parakeet TDT nutzt CoreML für die Ausführung auf der Neural Engine, während Qwen3-ASR MLX für die Metal-GPU verwendet. Die beiden Ansätze haben unterschiedliche Kompromisse:
| Parakeet TDT (CoreML) | Qwen3-ASR (MLX) | |
|---|---|---|
| Compute-Ziel | Neural Engine | Metal GPU |
| Geschwindigkeit | ~32x Echtzeit | ~17x Echtzeit |
| Architektur | FastConformer + TDT | Encoder-Decoder-Transformer |
| Mehrsprachigkeit | Englisch-fokussiert | Mehrsprachig |
| Quantisierung | INT8 | 4-bit (MLX) |
CoreML-Modelle laufen auf der Neural Engine, die unabhängig von der GPU arbeitet. Dadurch kann Parakeet TDT parallel zu GPU-basierten Aufgaben wie TTS ausgeführt werden, ohne sich gegenseitig zu blockieren.
Streaming-Variante
Für Echtzeit-Diktat und Live-Untertitelung siehe Parakeet-EOU-120M — eine kleinere RNN-T-Variante (120 MB) mit explizitem Äußerungsende-Kopf, entworfen für inkrementelle Verarbeitung von 640-ms-Audio-Chunks. Sie nutzt dasselbe SentencePiece-Vokabular wie Parakeet TDT 0.6B, ist aber auf Teil-Latenz unter einer Sekunde statt auf Spitzendurchsatz optimiert.
Auch verfügbar auf Android & Linux über ONNX Runtime.