Silero VAD — Android

Silero VAD v5 se ejecuta en Android y Linux embebido vía ONNX Runtime, proporcionando detección de actividad vocal en streaming con latencia submilisegundo. Funciona como disparador de voz del pipeline — el STT solo se ejecuta cuando se detecta voz, ahorrando cómputo.

Modelo

ModeloBackendTamañoHuggingFace
Silero-VAD-v5ONNX Runtime~2 MBaufklarer/Silero-VAD-v5-ONNX

Rendimiento

MétricaValor
Tamaño de chunk32 ms (512 muestras a 16 kHz)
LatenciaSubmilisegundo por chunk
RTF< 0.01

Configuración

ParámetroPor defectoDescripción
min_silence_duration0.5sDuración de silencio necesaria para terminar un segmento de voz
min_speech_duration0.15sDuración mínima de voz para activar la detección
Importante

En Android, el VAD forma parte de SpeechPipeline y no se utiliza de forma independiente. El pipeline gestiona automáticamente el flujo VAD → STT → TTS. Consulta speech-android en GitHub para los detalles de integración.

Código fuente: github.com/soniqo/speech-android