Silero VAD — Android
Silero VAD v5 s'exécute sur Android et Linux embarqué via ONNX Runtime, offrant une détection d'activité vocale streaming avec une latence sub-milliseconde. Il sert de déclencheur de parole pour le pipeline — STT ne s'exécute que lorsque la parole est détectée, économisant du calcul.
Modèle
| Modèle | Backend | Taille | HuggingFace |
|---|---|---|---|
| Silero-VAD-v5 | ONNX Runtime | ~2 Mo | aufklarer/Silero-VAD-v5-ONNX |
Performance
| Métrique | Valeur |
|---|---|
| Taille de chunk | 32 ms (512 échantillons à 16 kHz) |
| Latence | Sub-milliseconde par chunk |
| RTF | < 0,01 |
Configuration
| Paramètre | Par défaut | Description |
|---|---|---|
min_silence_duration | 0,5 s | Durée de silence requise pour terminer un segment de parole |
min_speech_duration | 0,15 s | Durée minimum de parole pour déclencher la détection |
Important
Sur Android, la VAD fait partie du SpeechPipeline et n'est pas utilisée seule. Le pipeline gère automatiquement le flux VAD → STT → TTS. Voir speech-android sur GitHub pour les détails d'intégration.
Code source : github.com/soniqo/speech-android