Parakeet TDT — Android
يعمل Parakeet TDT v3 على Android وLinux المضمّن عبر ONNX Runtime. ينقسم النموذج إلى ملفَّي مرمِّز ومفكّك-مشترك، وكلاهما مكمَّم INT8، مع مفكّك TDT جشِع يدعم 114 لغة ومفردات BPE من 8192 وحدة.
ملفات النموذج
| الملف | الحجم |
|---|---|
parakeet-encoder-int8.onnx | 840 MB |
parakeet-decoder-joint-int8.onnx | 51 MB |
vocab.json | <1 MB |
HuggingFace: aufklarer/Parakeet-TDT-v3-ONNX
الأداء
| المقياس | القيمة |
|---|---|
| اللغات | 114 |
| التكميم | INT8 |
| المفكّك | TDT الجشِع |
| عامل الزمن الحقيقي | RTF 0.12 (~150 ms لـ 1.5 s من الصوت) |
| التسريع العتادي | NNAPI (Android)، QNN Hexagon DSP (Linux) |
Kotlin (Android)
val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
when (event) {
is SpeechEvent.TranscriptionCompleted -> println(event.text)
else -> {}
}
}
pipeline.start()
pipeline.pushAudio(samples) // 16kHz mono float32
واجهة C (Linux)
speech_config_t cfg = speech_config_default();
cfg.model_dir = "/opt/models";
speech_pipeline_t p = speech_create(cfg, on_event, NULL);
speech_start(p);
speech_push_audio(p, samples, 512);
الكود المصدري: github.com/soniqo/speech-android