Silero VAD — Android
Silero VAD v5 se ejecuta en Android y Linux embebido vía ONNX Runtime, proporcionando detección de actividad vocal en streaming con latencia submilisegundo. Funciona como disparador de voz del pipeline — el STT solo se ejecuta cuando se detecta voz, ahorrando cómputo.
Modelo
| Modelo | Backend | Tamaño | HuggingFace |
|---|---|---|---|
| Silero-VAD-v5 | ONNX Runtime | ~2 MB | aufklarer/Silero-VAD-v5-ONNX |
Rendimiento
| Métrica | Valor |
|---|---|
| Tamaño de chunk | 32 ms (512 muestras a 16 kHz) |
| Latencia | Submilisegundo por chunk |
| RTF | < 0.01 |
Configuración
| Parámetro | Por defecto | Descripción |
|---|---|---|
min_silence_duration | 0.5s | Duración de silencio necesaria para terminar un segmento de voz |
min_speech_duration | 0.15s | Duración mínima de voz para activar la detección |
Importante
En Android, el VAD forma parte de SpeechPipeline y no se utiliza de forma independiente. El pipeline gestiona automáticamente el flujo VAD → STT → TTS. Consulta speech-android en GitHub para los detalles de integración.
Código fuente: github.com/soniqo/speech-android