快速开始 — Android
speech-android 使用 ONNX Runtime 为 Android 提供端侧语音处理能力。流水线运行 VAD + STT + TTS 并支持 barge-in,在完成模型下载后完全离线运行。
环境要求
- Android 8+ (API 26)
- arm64-v8a 架构
下载预构建的 demo app 立即试用:
Gradle 依赖
将 SDK 添加到 build.gradle.kts:
implementation("audio.soniqo:speech:0.0.5")
快速开始
val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
when (event) {
is SpeechEvent.TranscriptionCompleted -> println(event.text)
is SpeechEvent.ResponseDone -> pipeline.resumeListening()
else -> {}
}
}
pipeline.start()
pipeline.pushAudio(samples) // 16kHz mono float32
重要
模型在首次使用时从 HuggingFace 自动下载(总计约 1.2 GB)。完成首次下载后,所有推理都完全离线运行。
模型
所有模型通过 ONNX Runtime 运行,并启用 NNAPI 加速。默认使用 INT8 量化。
| 模型 | 任务 | 大小 |
|---|---|---|
| Parakeet TDT v3 (INT8) | 语音转文字(114 种语言) | 490 MB |
| Kokoro-82M (INT8) | 文本转语音(7 种语言) | 89 MB |
| Silero VAD v5 | 语音活动检测 | 1.2 MB |
| DeepFilterNet3 (FP16) | 降噪 | 4.2 MB |
源码:github.com/soniqo/speech-android
下一步
- Benchmarks — Android 推理性能
- Linux C API — 嵌入式 Linux 配置