Parakeet TDT

Parakeet TDT هو نموذج التعرّف على الكلام من NVIDIA، معدَّل ليعمل على Neural Engine في Apple Silicon عبر CoreML. يستخدم مرمِّز FastConformer مع مفكّك Token-and-Duration Transducer (TDT) لتفريغ نصوص دقيق وفعّال.

البنية المعمارية

يُقسَّم النموذج إلى ثلاثة ملفّات نماذج CoreML تعمل معًا أثناء الاستدلال:

المكوّن	الوصف
المرمِّز	FastConformer — طبقات التفاف وانتباه ذاتي لاستخراج سمات الصوت
المفكّك	شبكة تنبّؤ تحتفظ بسجلّ رموز النص
Joint	يجمع مخرجات المرمِّز والمفكّك لإنتاج احتمالات الرموز

المرمِّز مكمَّم بـ INT8 لخفض استهلاك الذاكرة وتسريع التنفيذ على Neural Engine. المفكّك وشبكة joint صغيران بما يكفي للاستغناء عن التكميم.

نسخ النموذج

النموذج	الحجم	HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)	500 MB	aufklarer/Parakeet-TDT-v3-CoreML-INT8-30s

الأداء

المقياس	القيمة
عامل الزمن الحقيقي	~32× زمنًا حقيقيًا على Apple Silicon Neural Engine
هدف الحوسبة	Neural Engine (عبر CoreML)
التكميم	INT8

الاستخدام عبر CLI

استخدم العَلَم --engine parakeet لاختيار Parakeet TDT بدلاً من Qwen3-ASR الافتراضي:

.build/release/speech transcribe recording.wav --engine parakeet

CoreML مقابل MLX

يستخدم Parakeet TDT تقنية CoreML للعمل على Neural Engine، بينما يستخدم Qwen3-ASR تقنية MLX للعمل على GPU في Metal. للنهجين توازنات مختلفة:

	Parakeet TDT (CoreML)	Qwen3-ASR (MLX)
هدف الحوسبة	Neural Engine	Metal GPU
السرعة	~32× زمنًا حقيقيًا	~17× زمنًا حقيقيًا
البنية	FastConformer + TDT	محوّل بمرمِّز ومفكّك
متعدّد اللغات	يركّز على الإنجليزية	متعدّد اللغات
التكميم	INT8	4-bit (MLX)

مهم

تعمل نماذج CoreML على Neural Engine الذي يعمل باستقلاليّة عن GPU. ويعني ذلك أنّ Parakeet TDT يمكن أن يعمل بالتوازي مع مهام GPU مثل TTS دون تنافس.

نسخة البثّ

للإملاء في زمن حقيقي والترجمة الفورية، راجع Parakeet-EOU-120M — نسخة RNN-T أصغر (120 MB) ذات رأس صريح لنهاية الكلام، مصمَّمة للعمل تدريجيًا على مقاطع صوتية بمدّة 640 ms. تشترك في مفردات SentencePiece نفسها مع Parakeet TDT 0.6B، لكنّها مُحسَّنة لزمن استجابة جزئي دون الثانية بدلاً من الإنتاجية القصوى.

متاح أيضًا على Android وLinux وWindows عبر ONNX Runtime.