Parakeet TDT
Parakeet TDT NVIDIA का स्पीच रिकग्निशन मॉडल है, जिसे CoreML के माध्यम से Apple Silicon के Neural Engine पर चलाने के लिए अनुकूलित किया गया है। यह सटीक, कुशल ट्रांसक्रिप्शन के लिए FastConformer encoder को Token-and-Duration Transducer (TDT) decoder के साथ जोड़ता है।
आर्किटेक्चर
मॉडल तीन CoreML मॉडल फ़ाइलों में विभाजित है जो इन्फ़रेंस के दौरान एक साथ काम करती हैं:
| घटक | विवरण |
|---|---|
| Encoder | FastConformer — ऑडियो फ़ीचर निष्कर्षण के लिए convolutional + self-attention लेयर |
| Decoder | Prediction नेटवर्क जो टेक्स्ट टोकन इतिहास बनाए रखता है |
| Joint | टोकन संभावनाएँ उत्पन्न करने के लिए encoder और decoder आउटपुट को जोड़ता है |
Encoder को न्यूनतम मेमोरी फ़ुटप्रिंट और तेज़ Neural Engine निष्पादन के लिए INT8 क्वांटाइज़ किया गया है। Decoder और joint नेटवर्क इतने छोटे हैं कि क्वांटिज़ेशन की आवश्यकता नहीं है।
मॉडल वेरिएंट
| मॉडल | आकार | HuggingFace |
|---|---|---|
| Parakeet-TDT-0.6B (CoreML INT8) | 500 MB | aufklarer/Parakeet-TDT-v3-CoreML-INT8 |
प्रदर्शन
| मेट्रिक | मान |
|---|---|
| रियल-टाइम फ़ैक्टर | Apple Silicon Neural Engine पर ~32x रियल-टाइम |
| कंप्यूट टारगेट | Neural Engine (CoreML के माध्यम से) |
| क्वांटिज़ेशन | INT8 |
CLI उपयोग
डिफ़ॉल्ट Qwen3-ASR के बजाय Parakeet TDT चुनने के लिए --engine parakeet फ़्लैग का उपयोग करें:
.build/release/audio transcribe recording.wav --engine parakeet
CoreML बनाम MLX
Parakeet TDT Neural Engine पर चलने के लिए CoreML का उपयोग करता है, जबकि Qwen3-ASR Metal GPU पर चलने के लिए MLX का उपयोग करता है। दोनों दृष्टिकोणों के अलग-अलग ट्रेड-ऑफ हैं:
| Parakeet TDT (CoreML) | Qwen3-ASR (MLX) | |
|---|---|---|
| कंप्यूट टारगेट | Neural Engine | Metal GPU |
| गति | ~32x रियल-टाइम | ~17x रियल-टाइम |
| आर्किटेक्चर | FastConformer + TDT | Encoder-decoder transformer |
| बहुभाषी | अंग्रेज़ी-केंद्रित | बहुभाषी |
| क्वांटिज़ेशन | INT8 | 4-bit (MLX) |
CoreML मॉडल Neural Engine पर चलते हैं, जो GPU से स्वतंत्र रूप से संचालित होता है। इसका मतलब है कि Parakeet TDT TTS जैसे GPU-आधारित कार्यों के साथ बिना प्रतिस्पर्धा के समवर्ती रूप से चल सकता है।
स्ट्रीमिंग वेरिएंट
रियल-टाइम डिक्टेशन और लाइव कैप्शनिंग के लिए, Parakeet-EOU-120M देखें — एक छोटा (120 MB) RNN-T वेरिएंट जिसमें एक स्पष्ट end-of-utterance हेड है, जिसे 640 ms ऑडियो चंक्स पर क्रमिक रूप से चलाने के लिए डिज़ाइन किया गया है। यह Parakeet TDT 0.6B के समान SentencePiece शब्दावली साझा करता है लेकिन पीक थ्रूपुट के बजाय सब-सेकंड पार्शियल लेटेंसी के लिए अनुकूलित है।