Silero VAD — Android
Silero VAD v5 работает на Android и встраиваемом Linux через ONNX Runtime, обеспечивая потоковую детекцию голосовой активности с задержкой меньше миллисекунды. Он служит триггером речи в пайплайне — STT запускается только при обнаружении речи, экономя вычисления.
Модель
| Модель | Бэкенд | Размер | HuggingFace |
|---|---|---|---|
| Silero-VAD-v5 | ONNX Runtime | ~2 МБ | aufklarer/Silero-VAD-v5-ONNX |
Производительность
| Метрика | Значение |
|---|---|
| Размер чанка | 32 мс (512 сэмплов при 16 кГц) |
| Задержка | Меньше миллисекунды на чанк |
| RTF | < 0.01 |
Конфигурация
| Параметр | По умолчанию | Описание |
|---|---|---|
min_silence_duration | 0.5 с | Длительность тишины, необходимая для завершения речевого сегмента |
min_speech_duration | 0.15 с | Минимальная длительность речи для срабатывания детекции |
Важно
На Android VAD — часть SpeechPipeline и не используется самостоятельно. Пайплайн автоматически управляет потоком VAD → STT → TTS. См. speech-android на GitHub для деталей интеграции.
Исходный код: github.com/soniqo/speech-android