Parakeet TDT

Parakeet TDT NVIDIA का स्पीच रिकग्निशन मॉडल है, जिसे CoreML के माध्यम से Apple Silicon के Neural Engine पर चलाने के लिए अनुकूलित किया गया है। यह सटीक, कुशल ट्रांसक्रिप्शन के लिए FastConformer encoder को Token-and-Duration Transducer (TDT) decoder के साथ जोड़ता है।

आर्किटेक्चर

मॉडल तीन CoreML मॉडल फ़ाइलों में विभाजित है जो इन्फ़रेंस के दौरान एक साथ काम करती हैं:

घटक	विवरण
Encoder	FastConformer — ऑडियो फ़ीचर निष्कर्षण के लिए convolutional + self-attention लेयर
Decoder	Prediction नेटवर्क जो टेक्स्ट टोकन इतिहास बनाए रखता है
Joint	टोकन संभावनाएँ उत्पन्न करने के लिए encoder और decoder आउटपुट को जोड़ता है

Encoder को न्यूनतम मेमोरी फ़ुटप्रिंट और तेज़ Neural Engine निष्पादन के लिए INT8 क्वांटाइज़ किया गया है। Decoder और joint नेटवर्क इतने छोटे हैं कि क्वांटिज़ेशन की आवश्यकता नहीं है।

मॉडल वेरिएंट

मॉडल	आकार	HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)	500 MB	aufklarer/Parakeet-TDT-v3-CoreML-INT8

प्रदर्शन

मेट्रिक	मान
रियल-टाइम फ़ैक्टर	Apple Silicon Neural Engine पर ~32x रियल-टाइम
कंप्यूट टारगेट	Neural Engine (CoreML के माध्यम से)
क्वांटिज़ेशन	INT8

CLI उपयोग

डिफ़ॉल्ट Qwen3-ASR के बजाय Parakeet TDT चुनने के लिए --engine parakeet फ़्लैग का उपयोग करें:

.build/release/speech transcribe recording.wav --engine parakeet

CoreML बनाम MLX

Parakeet TDT Neural Engine पर चलने के लिए CoreML का उपयोग करता है, जबकि Qwen3-ASR Metal GPU पर चलने के लिए MLX का उपयोग करता है। दोनों दृष्टिकोणों के अलग-अलग ट्रेड-ऑफ हैं:

	Parakeet TDT (CoreML)	Qwen3-ASR (MLX)
कंप्यूट टारगेट	Neural Engine	Metal GPU
गति	~32x रियल-टाइम	~17x रियल-टाइम
आर्किटेक्चर	FastConformer + TDT	Encoder-decoder transformer
बहुभाषी	अंग्रेज़ी-केंद्रित	बहुभाषी
क्वांटिज़ेशन	INT8	4-bit (MLX)

महत्वपूर्ण

CoreML मॉडल Neural Engine पर चलते हैं, जो GPU से स्वतंत्र रूप से संचालित होता है। इसका मतलब है कि Parakeet TDT TTS जैसे GPU-आधारित कार्यों के साथ बिना प्रतिस्पर्धा के समवर्ती रूप से चल सकता है।

स्ट्रीमिंग वेरिएंट

रियल-टाइम डिक्टेशन और लाइव कैप्शनिंग के लिए, Parakeet-EOU-120M देखें — एक छोटा (120 MB) RNN-T वेरिएंट जिसमें एक स्पष्ट end-of-utterance हेड है, जिसे 640 ms ऑडियो चंक्स पर क्रमिक रूप से चलाने के लिए डिज़ाइन किया गया है। यह Parakeet TDT 0.6B के समान SentencePiece शब्दावली साझा करता है लेकिन पीक थ्रूपुट के बजाय सब-सेकंड पार्शियल लेटेंसी के लिए अनुकूलित है।

Android और Linux पर ONNX Runtime के माध्यम से भी उपलब्ध।