Kokoro TTS — Android

Kokoro-82M là mô hình tổng hợp giọng nói nhẹ, không tự hồi quy chạy trên Android qua ONNX Runtime. Nó tạo ra giọng nói tự nhiên 24 kHz với 50 giọng dựng sẵn trên 8 ngôn ngữ.

Ngôn ngữ được hỗ trợ

Ngôn ngữ	Mã	Giọng ví dụ
Tiếng Anh (Mỹ)	en	af_heart, am_adam, af_sky
Tiếng Anh (Anh)	en	bf_emma, bm_george
Tiếng Tây Ban Nha	es	ef_dora
Tiếng Pháp	fr	ff_siwis
Tiếng Hindi	hi	hf_alpha, hm_omega
Tiếng Ý	it	if_sara
Tiếng Nhật	ja	jf_alpha, jm_omega
Tiếng Bồ Đào Nha	pt	pf_dora
Tiếng Trung	zh	zf_xiaobei, zm_yunjian

Tổng cộng 50 giọng dựng sẵn. Quy ước đặt tên giọng: [language][gender]_[name] — ví dụ, af_heart = nữ Mỹ "Heart".

File mô hình

File	Kích thước
`kokoro-e2e.onnx` + `.onnx.data`	~330 MB
`voices.bin`	Embedding giọng
Từ điển âm vị	Dữ liệu phát âm theo từng ngôn ngữ

HuggingFace: soniqo/Kokoro-82M-ONNX

Hiệu năng

Chỉ số	Giá trị
Tham số	82M
Backend suy luận	ONNX Runtime
Tần số lấy mẫu đầu ra	24 kHz

Phonemizer

Văn bản được chuyển thành token âm vị bằng một phonemizer dựa trên từ điển với hỗ trợ theo từng ngôn ngữ. Bản triển khai Android bao gồm phonemizer cho tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Ý, tiếng Bồ Đào Nha, tiếng Hindi, tiếng Nhật và tiếng Trung.

Tích hợp pipeline

Trên Android, Kokoro TTS là một phần của SpeechPipeline. Sau khi STT chuyển giọng nói thành văn bản, văn bản được chuyển sang âm vị rồi tổng hợp trở lại thành âm thanh. Pipeline tự động quản lý toàn bộ luồng VAD → STT → TTS.

val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
    when (event) {
        is SpeechEvent.TranscriptionCompleted -> println(event.text)
        else -> {}
    }
}
pipeline.start()
pipeline.pushAudio(samples) // 16kHz mono float32

Mã nguồn: github.com/soniqo/speech-android