快速开始 — Android

speech-android 使用 ONNX Runtime 为 Android 提供端侧语音处理能力。流水线运行 VAD + STT + TTS 并支持 barge-in,在完成模型下载后完全离线运行。

环境要求

下载预构建的 demo app 立即试用:

Gradle 依赖

将 SDK 添加到 build.gradle.kts

implementation("audio.soniqo:speech:0.0.5")

快速开始

val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
    when (event) {
        is SpeechEvent.TranscriptionCompleted -> println(event.text)
        is SpeechEvent.ResponseDone -> pipeline.resumeListening()
        else -> {}
    }
}
pipeline.start()
pipeline.pushAudio(samples) // 16kHz mono float32
重要

模型在首次使用时从 HuggingFace 自动下载(总计约 1.2 GB)。完成首次下载后,所有推理都完全离线运行。

模型

所有模型通过 ONNX Runtime 运行,并启用 NNAPI 加速。默认使用 INT8 量化。

模型任务大小
Parakeet TDT v3 (INT8)语音转文字(114 种语言)490 MB
Kokoro-82M (INT8)文本转语音(7 种语言)89 MB
Silero VAD v5语音活动检测1.2 MB
DeepFilterNet3 (FP16)降噪4.2 MB

源码:github.com/soniqo/speech-android

下一步