Silero VAD — Android
Silero VAD v5 läuft auf Android und eingebettetem Linux über ONNX Runtime und bietet Streaming-Sprachaktivitätserkennung mit Sub-Millisekunden-Latenz. Es dient als Sprachauslöser der Pipeline — STT läuft nur, wenn Sprache erkannt wird, was Rechenleistung spart.
Modell
| Modell | Backend | Größe | HuggingFace |
|---|---|---|---|
| Silero-VAD-v5 | ONNX Runtime | ~2 MB | aufklarer/Silero-VAD-v5-ONNX |
Leistung
| Metrik | Wert |
|---|---|
| Chunk-Größe | 32 ms (512 Samples bei 16 kHz) |
| Latenz | Sub-Millisekunde pro Chunk |
| RTF | < 0,01 |
Konfiguration
| Parameter | Standard | Beschreibung |
|---|---|---|
min_silence_duration | 0,5 s | Stillezeit, die zum Beenden eines Sprachsegments erforderlich ist |
min_speech_duration | 0,15 s | Minimale Sprachdauer, um Erkennung auszulösen |
Wichtig
Auf Android ist VAD Teil der SpeechPipeline und wird nicht eigenständig verwendet. Die Pipeline steuert den VAD → STT → TTS-Ablauf automatisch. Siehe speech-android auf GitHub für Integrationsdetails.
Quellcode: github.com/soniqo/speech-android