Silero VAD — Android

Silero VAD v5 работает на Android и встраиваемом Linux через ONNX Runtime, обеспечивая потоковую детекцию голосовой активности с задержкой меньше миллисекунды. Он служит триггером речи в пайплайне — STT запускается только при обнаружении речи, экономя вычисления.

Модель

МодельБэкендРазмерHuggingFace
Silero-VAD-v5ONNX Runtime~2 МБaufklarer/Silero-VAD-v5-ONNX

Производительность

МетрикаЗначение
Размер чанка32 мс (512 сэмплов при 16 кГц)
ЗадержкаМеньше миллисекунды на чанк
RTF< 0.01

Конфигурация

ПараметрПо умолчаниюОписание
min_silence_duration0.5 сДлительность тишины, необходимая для завершения речевого сегмента
min_speech_duration0.15 сМинимальная длительность речи для срабатывания детекции
Важно

На Android VAD — часть SpeechPipeline и не используется самостоятельно. Пайплайн автоматически управляет потоком VAD → STT → TTS. См. speech-android на GitHub для деталей интеграции.

Исходный код: github.com/soniqo/speech-android