Parakeet TDT
Parakeet TDT هو نموذج التعرّف على الكلام من NVIDIA، معدَّل ليعمل على Neural Engine في Apple Silicon عبر CoreML. يستخدم مرمِّز FastConformer مع مفكّك Token-and-Duration Transducer (TDT) لتفريغ نصوص دقيق وفعّال.
البنية المعمارية
يُقسَّم النموذج إلى ثلاثة ملفّات نماذج CoreML تعمل معًا أثناء الاستدلال:
| المكوّن | الوصف |
|---|---|
| المرمِّز | FastConformer — طبقات التفاف وانتباه ذاتي لاستخراج سمات الصوت |
| المفكّك | شبكة تنبّؤ تحتفظ بسجلّ رموز النص |
| Joint | يجمع مخرجات المرمِّز والمفكّك لإنتاج احتمالات الرموز |
المرمِّز مكمَّم بـ INT8 لخفض استهلاك الذاكرة وتسريع التنفيذ على Neural Engine. المفكّك وشبكة joint صغيران بما يكفي للاستغناء عن التكميم.
نسخ النموذج
| النموذج | الحجم | HuggingFace |
|---|---|---|
| Parakeet-TDT-0.6B (CoreML INT8) | 500 MB | aufklarer/Parakeet-TDT-v3-CoreML-INT8 |
الأداء
| المقياس | القيمة |
|---|---|
| عامل الزمن الحقيقي | ~32× زمنًا حقيقيًا على Apple Silicon Neural Engine |
| هدف الحوسبة | Neural Engine (عبر CoreML) |
| التكميم | INT8 |
الاستخدام عبر CLI
استخدم العَلَم --engine parakeet لاختيار Parakeet TDT بدلاً من Qwen3-ASR الافتراضي:
.build/release/speech transcribe recording.wav --engine parakeet
CoreML مقابل MLX
يستخدم Parakeet TDT تقنية CoreML للعمل على Neural Engine، بينما يستخدم Qwen3-ASR تقنية MLX للعمل على GPU في Metal. للنهجين توازنات مختلفة:
| Parakeet TDT (CoreML) | Qwen3-ASR (MLX) | |
|---|---|---|
| هدف الحوسبة | Neural Engine | Metal GPU |
| السرعة | ~32× زمنًا حقيقيًا | ~17× زمنًا حقيقيًا |
| البنية | FastConformer + TDT | محوّل بمرمِّز ومفكّك |
| متعدّد اللغات | يركّز على الإنجليزية | متعدّد اللغات |
| التكميم | INT8 | 4-bit (MLX) |
تعمل نماذج CoreML على Neural Engine الذي يعمل باستقلاليّة عن GPU. ويعني ذلك أنّ Parakeet TDT يمكن أن يعمل بالتوازي مع مهام GPU مثل TTS دون تنافس.
نسخة البثّ
للإملاء في زمن حقيقي والترجمة الفورية، راجع Parakeet-EOU-120M — نسخة RNN-T أصغر (120 MB) ذات رأس صريح لنهاية الكلام، مصمَّمة للعمل تدريجيًا على مقاطع صوتية بمدّة 640 ms. تشترك في مفردات SentencePiece نفسها مع Parakeet TDT 0.6B، لكنّها مُحسَّنة لزمن استجابة جزئي دون الثانية بدلاً من الإنتاجية القصوى.
متاح أيضًا على Android وLinux عبر ONNX Runtime.