Silero VAD — Android

Silero VAD v5 s'exécute sur Android et Linux embarqué via ONNX Runtime, offrant une détection d'activité vocale streaming avec une latence sub-milliseconde. Il sert de déclencheur de parole pour le pipeline — STT ne s'exécute que lorsque la parole est détectée, économisant du calcul.

Modèle

ModèleBackendTailleHuggingFace
Silero-VAD-v5ONNX Runtime~2 Moaufklarer/Silero-VAD-v5-ONNX

Performance

MétriqueValeur
Taille de chunk32 ms (512 échantillons à 16 kHz)
LatenceSub-milliseconde par chunk
RTF< 0,01

Configuration

ParamètrePar défautDescription
min_silence_duration0,5 sDurée de silence requise pour terminer un segment de parole
min_speech_duration0,15 sDurée minimum de parole pour déclencher la détection
Important

Sur Android, la VAD fait partie du SpeechPipeline et n'est pas utilisée seule. Le pipeline gère automatiquement le flux VAD → STT → TTS. Voir speech-android sur GitHub pour les détails d'intégration.

Code source : github.com/soniqo/speech-android