Silero VAD — Android

Silero VAD v5 ONNX Runtime के माध्यम से Android और एम्बेडेड Linux पर चलता है, sub-millisecond latency के साथ streaming वॉयस एक्टिविटी डिटेक्शन प्रदान करता है। यह पाइपलाइन के speech trigger के रूप में कार्य करता है — STT केवल तब चलता है जब speech का पता चलता है, जो compute बचाता है।

मॉडल

मॉडलबैकएंडआकारHuggingFace
Silero-VAD-v5ONNX Runtime~2 MBaufklarer/Silero-VAD-v5-ONNX

परफ़ॉर्मेंस

मेट्रिकमान
Chunk size32 ms (16 kHz पर 512 samples)
लेटेंसीSub-millisecond प्रति chunk
RTF< 0.01

कॉन्फ़िगरेशन

पैरामीटरडिफ़ॉल्टविवरण
min_silence_duration0.5sएक speech segment को समाप्त करने के लिए आवश्यक silence अवधि
min_speech_duration0.15sDetection trigger करने के लिए न्यूनतम speech अवधि
महत्वपूर्ण

Android पर, VAD SpeechPipeline का हिस्सा है और standalone उपयोग नहीं किया जाता है। पाइपलाइन स्वचालित रूप से VAD → STT → TTS flow को हैंडल करती है। इंटीग्रेशन विवरण के लिए GitHub पर speech-android देखें।

सोर्स कोड: github.com/soniqo/speech-android