Silero VAD — Android

Silero VAD v5 s'exécute sur Android, Linux embarqué et Windows via ONNX Runtime, offrant une détection d'activité vocale streaming avec une latence sub-milliseconde. Il sert de déclencheur de parole pour le pipeline — STT ne s'exécute que lorsque la parole est détectée, économisant du calcul.

Modèle

Modèle	Backend	Taille	HuggingFace
Silero-VAD-v5	ONNX Runtime	~2 Mo	soniqo/Silero-VAD-v5-ONNX

Performance

Métrique	Valeur
Taille de chunk	32 ms (512 échantillons à 16 kHz)
Latence	Sub-milliseconde par chunk
RTF	< 0,01

Configuration

Paramètre	Par défaut	Description
`min_silence_duration`	0,5 s	Durée de silence requise pour terminer un segment de parole
`min_speech_duration`	0,15 s	Durée minimum de parole pour déclencher la détection

Important

Sur Android, la VAD fait partie du SpeechPipeline et n'est pas utilisée seule. Le pipeline gère automatiquement le flux VAD → STT → TTS. Voir speech-android sur GitHub pour les détails d'intégration.

Code source : github.com/soniqo/speech-android