Silero VAD — Android

Silero VAD v5 läuft auf Android, eingebettetem Linux und Windows über ONNX Runtime und bietet Streaming-Sprachaktivitätserkennung mit Sub-Millisekunden-Latenz. Es dient als Sprachauslöser der Pipeline — STT läuft nur, wenn Sprache erkannt wird, was Rechenleistung spart.

Modell

Modell	Backend	Größe	HuggingFace
Silero-VAD-v5	ONNX Runtime	~2 MB	soniqo/Silero-VAD-v5-ONNX

Leistung

Metrik	Wert
Chunk-Größe	32 ms (512 Samples bei 16 kHz)
Latenz	Sub-Millisekunde pro Chunk
RTF	< 0,01

Konfiguration

Parameter	Standard	Beschreibung
`min_silence_duration`	0,5 s	Stillezeit, die zum Beenden eines Sprachsegments erforderlich ist
`min_speech_duration`	0,15 s	Minimale Sprachdauer, um Erkennung auszulösen

Wichtig

Auf Android ist VAD Teil der SpeechPipeline und wird nicht eigenständig verwendet. Die Pipeline steuert den VAD → STT → TTS-Ablauf automatisch. Siehe speech-android auf GitHub für Integrationsdetails.

Quellcode: github.com/soniqo/speech-android