Parakeet TDT — Android

Parakeet TDT v3 läuft auf Android, eingebettetem Linux und Windows über ONNX Runtime. Das Modell ist in Encoder- und Decoder-Joint-Dateien aufgeteilt, beide INT8-quantisiert, mit einem TDT-Greedy-Decoder, der 114 Sprachen und ein BPE-Vokabular mit 8192 Tokens unterstützt.

Modelldateien

Datei	Größe
`parakeet-encoder-int8.onnx`	840 MB
`parakeet-decoder-joint-int8.onnx`	51 MB
`vocab.json`	<1 MB

HuggingFace: soniqo/Parakeet-TDT-v3-ONNX

Leistung

Kennzahl	Wert
Sprachen	114
Quantisierung	INT8
Decoder	TDT Greedy
Echtzeitfaktor	RTF 0,12 (~150 ms für 1,5 s Audio)
Hardware-Beschleunigung	NNAPI (Android), QNN Hexagon DSP (Linux)

Kotlin (Android)

val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
    when (event) {
        is SpeechEvent.TranscriptionCompleted -> println(event.text)
        else -> {}
    }
}
pipeline.start()
pipeline.pushAudio(samples) // 16kHz mono float32

C-API (Linux)

speech_config_t cfg = speech_config_default();
cfg.model_dir = "/opt/models";
speech_pipeline_t p = speech_create(cfg, on_event, NULL);
speech_start(p);
speech_push_audio(p, samples, 512);

Quellcode: github.com/soniqo/speech-android