Silero VAD — Android

Silero VAD v5 läuft auf Android und eingebettetem Linux über ONNX Runtime und bietet Streaming-Sprachaktivitätserkennung mit Sub-Millisekunden-Latenz. Es dient als Sprachauslöser der Pipeline — STT läuft nur, wenn Sprache erkannt wird, was Rechenleistung spart.

Modell

ModellBackendGrößeHuggingFace
Silero-VAD-v5ONNX Runtime~2 MBaufklarer/Silero-VAD-v5-ONNX

Leistung

MetrikWert
Chunk-Größe32 ms (512 Samples bei 16 kHz)
LatenzSub-Millisekunde pro Chunk
RTF< 0,01

Konfiguration

ParameterStandardBeschreibung
min_silence_duration0,5 sStillezeit, die zum Beenden eines Sprachsegments erforderlich ist
min_speech_duration0,15 sMinimale Sprachdauer, um Erkennung auszulösen
Wichtig

Auf Android ist VAD Teil der SpeechPipeline und wird nicht eigenständig verwendet. Die Pipeline steuert den VAD → STT → TTS-Ablauf automatisch. Siehe speech-android auf GitHub für Integrationsdetails.

Quellcode: github.com/soniqo/speech-android