Parakeet TDT — Android
Parakeet TDT v3는 ONNX Runtime을 통해 Android 및 임베디드 Linux에서 실행됩니다. 모델은 인코더와 디코더-조인트 파일로 분할되어 있으며 둘 다 INT8로 양자화되어 있고, 114개 언어와 8192 토큰 BPE 어휘를 지원하는 TDT 그리디 디코더를 갖추고 있습니다.
모델 파일
| 파일 | 크기 |
|---|---|
parakeet-encoder-int8.onnx | 840 MB |
parakeet-decoder-joint-int8.onnx | 51 MB |
vocab.json | <1 MB |
HuggingFace: aufklarer/Parakeet-TDT-v3-ONNX
성능
| 지표 | 값 |
|---|---|
| 언어 수 | 114 |
| 양자화 | INT8 |
| 디코더 | TDT 그리디 |
| 실시간 대비 속도 | RTF 0.12 (1.5초 오디오당 약 150 ms) |
| 하드웨어 가속 | NNAPI (Android), QNN Hexagon DSP (Linux) |
Kotlin (Android)
val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
when (event) {
is SpeechEvent.TranscriptionCompleted -> println(event.text)
else -> {}
}
}
pipeline.start()
pipeline.pushAudio(samples) // 16kHz mono float32
C API (Linux)
speech_config_t cfg = speech_config_default();
cfg.model_dir = "/opt/models";
speech_pipeline_t p = speech_create(cfg, on_event, NULL);
speech_start(p);
speech_push_audio(p, samples, 512);