Parakeet TDT

Parakeet TDT هو نموذج التعرّف على الكلام من NVIDIA، معدَّل ليعمل على Neural Engine في Apple Silicon عبر CoreML. يستخدم مرمِّز FastConformer مع مفكّك Token-and-Duration Transducer (TDT) لتفريغ نصوص دقيق وفعّال.

البنية المعمارية

يُقسَّم النموذج إلى ثلاثة ملفّات نماذج CoreML تعمل معًا أثناء الاستدلال:

المكوّنالوصف
المرمِّزFastConformer — طبقات التفاف وانتباه ذاتي لاستخراج سمات الصوت
المفكّكشبكة تنبّؤ تحتفظ بسجلّ رموز النص
Jointيجمع مخرجات المرمِّز والمفكّك لإنتاج احتمالات الرموز

المرمِّز مكمَّم بـ INT8 لخفض استهلاك الذاكرة وتسريع التنفيذ على Neural Engine. المفكّك وشبكة joint صغيران بما يكفي للاستغناء عن التكميم.

نسخ النموذج

النموذجالحجمHuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 MBaufklarer/Parakeet-TDT-v3-CoreML-INT8

الأداء

المقياسالقيمة
عامل الزمن الحقيقي~32× زمنًا حقيقيًا على Apple Silicon Neural Engine
هدف الحوسبةNeural Engine (عبر CoreML)
التكميمINT8

الاستخدام عبر CLI

استخدم العَلَم --engine parakeet لاختيار Parakeet TDT بدلاً من Qwen3-ASR الافتراضي:

.build/release/speech transcribe recording.wav --engine parakeet

CoreML مقابل MLX

يستخدم Parakeet TDT تقنية CoreML للعمل على Neural Engine، بينما يستخدم Qwen3-ASR تقنية MLX للعمل على GPU في Metal. للنهجين توازنات مختلفة:

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
هدف الحوسبةNeural EngineMetal GPU
السرعة~32× زمنًا حقيقيًا~17× زمنًا حقيقيًا
البنيةFastConformer + TDTمحوّل بمرمِّز ومفكّك
متعدّد اللغاتيركّز على الإنجليزيةمتعدّد اللغات
التكميمINT84-bit (MLX)
مهم

تعمل نماذج CoreML على Neural Engine الذي يعمل باستقلاليّة عن GPU. ويعني ذلك أنّ Parakeet TDT يمكن أن يعمل بالتوازي مع مهام GPU مثل TTS دون تنافس.

نسخة البثّ

للإملاء في زمن حقيقي والترجمة الفورية، راجع Parakeet-EOU-120M — نسخة RNN-T أصغر (120 MB) ذات رأس صريح لنهاية الكلام، مصمَّمة للعمل تدريجيًا على مقاطع صوتية بمدّة 640 ms. تشترك في مفردات SentencePiece نفسها مع Parakeet TDT 0.6B، لكنّها مُحسَّنة لزمن استجابة جزئي دون الثانية بدلاً من الإنتاجية القصوى.

متاح أيضًا على Android وLinux عبر ONNX Runtime.