Parakeet TDT — Android

Parakeet TDT v3는 ONNX Runtime을 통해 Android 및 임베디드 Linux에서 실행됩니다. 모델은 인코더와 디코더-조인트 파일로 분할되어 있으며 둘 다 INT8로 양자화되어 있고, 114개 언어와 8192 토큰 BPE 어휘를 지원하는 TDT 그리디 디코더를 갖추고 있습니다.

모델 파일

파일크기
parakeet-encoder-int8.onnx840 MB
parakeet-decoder-joint-int8.onnx51 MB
vocab.json<1 MB

HuggingFace: aufklarer/Parakeet-TDT-v3-ONNX

성능

지표
언어 수114
양자화INT8
디코더TDT 그리디
실시간 대비 속도RTF 0.12 (1.5초 오디오당 약 150 ms)
하드웨어 가속NNAPI (Android), QNN Hexagon DSP (Linux)

Kotlin (Android)

val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
    when (event) {
        is SpeechEvent.TranscriptionCompleted -> println(event.text)
        else -> {}
    }
}
pipeline.start()
pipeline.pushAudio(samples) // 16kHz mono float32

C API (Linux)

speech_config_t cfg = speech_config_default();
cfg.model_dir = "/opt/models";
speech_pipeline_t p = speech_create(cfg, on_event, NULL);
speech_start(p);
speech_push_audio(p, samples, 512);

소스 코드: github.com/soniqo/speech-android