Silero VAD — Android

Silero VAD v5 se ejecuta en Android, Linux embebido y Windows vía ONNX Runtime, proporcionando detección de actividad vocal en streaming con latencia submilisegundo. Funciona como disparador de voz del pipeline — el STT solo se ejecuta cuando se detecta voz, ahorrando cómputo.

Modelo

Modelo	Backend	Tamaño	HuggingFace
Silero-VAD-v5	ONNX Runtime	~2 MB	soniqo/Silero-VAD-v5-ONNX

Rendimiento

Métrica	Valor
Tamaño de chunk	32 ms (512 muestras a 16 kHz)
Latencia	Submilisegundo por chunk
RTF	< 0.01

Configuración

Parámetro	Por defecto	Descripción
`min_silence_duration`	0.5s	Duración de silencio necesaria para terminar un segmento de voz
`min_speech_duration`	0.15s	Duración mínima de voz para activar la detección

Importante

En Android, el VAD forma parte de SpeechPipeline y no se utiliza de forma independiente. El pipeline gestiona automáticamente el flujo VAD → STT → TTS. Consulta speech-android en GitHub para los detalles de integración.

Código fuente: github.com/soniqo/speech-android