Silero VAD — Android
Silero VAD v5 roda em Android e Linux embarcado via ONNX Runtime, fornecendo deteccao de atividade de voz em streaming com latencia sub-milissegundo. Serve como o gatilho de fala do pipeline — o STT so roda quando fala e detectada, economizando computacao.
Modelo
| Modelo | Backend | Tamanho | HuggingFace |
|---|---|---|---|
| Silero-VAD-v5 | ONNX Runtime | ~2 MB | aufklarer/Silero-VAD-v5-ONNX |
Desempenho
| Metrica | Valor |
|---|---|
| Tamanho do chunk | 32 ms (512 amostras a 16 kHz) |
| Latencia | Sub-milissegundo por chunk |
| RTF | < 0.01 |
Configuracao
| Parametro | Padrao | Descricao |
|---|---|---|
min_silence_duration | 0.5s | Duracao de silencio necessaria para encerrar um segmento de fala |
min_speech_duration | 0.15s | Duracao minima de fala para disparar a deteccao |
Importante
No Android, o VAD e parte do SpeechPipeline e nao e usado isoladamente. O pipeline gerencia automaticamente o fluxo VAD → STT → TTS. Veja speech-android no GitHub para detalhes de integracao.
Codigo-fonte: github.com/soniqo/speech-android