Parakeet TDT

Parakeet TDT NVIDIA का स्पीच रिकग्निशन मॉडल है, जिसे CoreML के माध्यम से Apple Silicon के Neural Engine पर चलाने के लिए अनुकूलित किया गया है। यह सटीक, कुशल ट्रांसक्रिप्शन के लिए FastConformer encoder को Token-and-Duration Transducer (TDT) decoder के साथ जोड़ता है।

आर्किटेक्चर

मॉडल तीन CoreML मॉडल फ़ाइलों में विभाजित है जो इन्फ़रेंस के दौरान एक साथ काम करती हैं:

घटकविवरण
EncoderFastConformer — ऑडियो फ़ीचर निष्कर्षण के लिए convolutional + self-attention लेयर
DecoderPrediction नेटवर्क जो टेक्स्ट टोकन इतिहास बनाए रखता है
Jointटोकन संभावनाएँ उत्पन्न करने के लिए encoder और decoder आउटपुट को जोड़ता है

Encoder को न्यूनतम मेमोरी फ़ुटप्रिंट और तेज़ Neural Engine निष्पादन के लिए INT8 क्वांटाइज़ किया गया है। Decoder और joint नेटवर्क इतने छोटे हैं कि क्वांटिज़ेशन की आवश्यकता नहीं है।

मॉडल वेरिएंट

मॉडलआकारHuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 MBaufklarer/Parakeet-TDT-v3-CoreML-INT8

प्रदर्शन

मेट्रिकमान
रियल-टाइम फ़ैक्टरApple Silicon Neural Engine पर ~32x रियल-टाइम
कंप्यूट टारगेटNeural Engine (CoreML के माध्यम से)
क्वांटिज़ेशनINT8

CLI उपयोग

डिफ़ॉल्ट Qwen3-ASR के बजाय Parakeet TDT चुनने के लिए --engine parakeet फ़्लैग का उपयोग करें:

.build/release/audio transcribe recording.wav --engine parakeet

CoreML बनाम MLX

Parakeet TDT Neural Engine पर चलने के लिए CoreML का उपयोग करता है, जबकि Qwen3-ASR Metal GPU पर चलने के लिए MLX का उपयोग करता है। दोनों दृष्टिकोणों के अलग-अलग ट्रेड-ऑफ हैं:

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
कंप्यूट टारगेटNeural EngineMetal GPU
गति~32x रियल-टाइम~17x रियल-टाइम
आर्किटेक्चरFastConformer + TDTEncoder-decoder transformer
बहुभाषीअंग्रेज़ी-केंद्रितबहुभाषी
क्वांटिज़ेशनINT84-bit (MLX)
महत्वपूर्ण

CoreML मॉडल Neural Engine पर चलते हैं, जो GPU से स्वतंत्र रूप से संचालित होता है। इसका मतलब है कि Parakeet TDT TTS जैसे GPU-आधारित कार्यों के साथ बिना प्रतिस्पर्धा के समवर्ती रूप से चल सकता है।

स्ट्रीमिंग वेरिएंट

रियल-टाइम डिक्टेशन और लाइव कैप्शनिंग के लिए, Parakeet-EOU-120M देखें — एक छोटा (120 MB) RNN-T वेरिएंट जिसमें एक स्पष्ट end-of-utterance हेड है, जिसे 640 ms ऑडियो चंक्स पर क्रमिक रूप से चलाने के लिए डिज़ाइन किया गया है। यह Parakeet TDT 0.6B के समान SentencePiece शब्दावली साझा करता है लेकिन पीक थ्रूपुट के बजाय सब-सेकंड पार्शियल लेटेंसी के लिए अनुकूलित है।

Android और Linux पर ONNX Runtime के माध्यम से भी उपलब्ध।