Parakeet TDT — Android

Parakeet TDT v3 ONNX Runtime के माध्यम से Android और एम्बेडेड Linux पर चलता है। मॉडल encoder और decoder-joint फ़ाइलों में विभाजित है, दोनों INT8 क्वांटाइज़्ड हैं, 114 भाषाओं और 8192-टोकन BPE शब्दावली का समर्थन करने वाले TDT greedy decoder के साथ।

मॉडल फ़ाइलें

फ़ाइलआकार
parakeet-encoder-int8.onnx840 MB
parakeet-decoder-joint-int8.onnx51 MB
vocab.json<1 MB

HuggingFace: aufklarer/Parakeet-TDT-v3-ONNX

प्रदर्शन

मेट्रिकमान
भाषाएँ114
क्वांटिज़ेशनINT8
DecoderTDT greedy
रियल-टाइम फ़ैक्टरRTF 0.12 (1.5 s ऑडियो के लिए ~150 ms)
हार्डवेयर एक्सेलेरेशनNNAPI (Android), QNN Hexagon DSP (Linux)

Kotlin (Android)

val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
    when (event) {
        is SpeechEvent.TranscriptionCompleted -> println(event.text)
        else -> {}
    }
}
pipeline.start()
pipeline.pushAudio(samples) // 16kHz mono float32

C API (Linux)

speech_config_t cfg = speech_config_default();
cfg.model_dir = "/opt/models";
speech_pipeline_t p = speech_create(cfg, on_event, NULL);
speech_start(p);
speech_push_audio(p, samples, 512);

सोर्स कोड: github.com/soniqo/speech-android