Silero VAD — Android
Silero VAD v5 通过 ONNX Runtime 在 Android 和嵌入式 Linux 上运行,提供亚毫秒级延迟的流式语音活动检测。它作为流水线的语音触发器——只有检测到语音时 STT 才会运行,从而节省算力。
模型
| 模型 | 后端 | 大小 | HuggingFace |
|---|---|---|---|
| Silero-VAD-v5 | ONNX Runtime | ~2 MB | aufklarer/Silero-VAD-v5-ONNX |
性能
| 指标 | 值 |
|---|---|
| Chunk 大小 | 32 ms(16 kHz 下 512 样本) |
| 延迟 | 每个 chunk 亚毫秒级 |
| RTF | < 0.01 |
配置
| 参数 | 默认值 | 说明 |
|---|---|---|
min_silence_duration | 0.5s | 结束语音段所需的静音时长 |
min_speech_duration | 0.15s | 触发检测所需的最小语音时长 |
重要
在 Android 上,VAD 是 SpeechPipeline 的一部分,不单独使用。流水线自动处理 VAD → STT → TTS 流程。集成细节见 speech-android on GitHub。