Parakeet TDT — Android
Parakeet TDT v3 s'exécute sur Android et Linux embarqué via ONNX Runtime. Le modèle est découpé en fichiers encodeur et décodeur-joint, tous deux quantifiés INT8, avec un décodeur glouton TDT prenant en charge 114 langues et un vocabulaire BPE de 8192 tokens.
Fichiers du modèle
| Fichier | Taille |
|---|---|
parakeet-encoder-int8.onnx | 840 Mo |
parakeet-decoder-joint-int8.onnx | 51 Mo |
vocab.json | <1 Mo |
HuggingFace : aufklarer/Parakeet-TDT-v3-ONNX
Performance
| Métrique | Valeur |
|---|---|
| Langues | 114 |
| Quantification | INT8 |
| Décodeur | Glouton TDT |
| Facteur temps réel | RTF 0,12 (~150 ms pour 1,5 s d'audio) |
| Accélération matérielle | NNAPI (Android), DSP QNN Hexagon (Linux) |
Kotlin (Android)
val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
when (event) {
is SpeechEvent.TranscriptionCompleted -> println(event.text)
else -> {}
}
}
pipeline.start()
pipeline.pushAudio(samples) // 16kHz mono float32
API C (Linux)
speech_config_t cfg = speech_config_default();
cfg.model_dir = "/opt/models";
speech_pipeline_t p = speech_create(cfg, on_event, NULL);
speech_start(p);
speech_push_audio(p, samples, 512);
Code source : github.com/soniqo/speech-android