Silero VAD — Android
Silero VAD v5 ONNX Runtime के माध्यम से Android और एम्बेडेड Linux पर चलता है, sub-millisecond latency के साथ streaming वॉयस एक्टिविटी डिटेक्शन प्रदान करता है। यह पाइपलाइन के speech trigger के रूप में कार्य करता है — STT केवल तब चलता है जब speech का पता चलता है, जो compute बचाता है।
मॉडल
| मॉडल | बैकएंड | आकार | HuggingFace |
|---|---|---|---|
| Silero-VAD-v5 | ONNX Runtime | ~2 MB | aufklarer/Silero-VAD-v5-ONNX |
परफ़ॉर्मेंस
| मेट्रिक | मान |
|---|---|
| Chunk size | 32 ms (16 kHz पर 512 samples) |
| लेटेंसी | Sub-millisecond प्रति chunk |
| RTF | < 0.01 |
कॉन्फ़िगरेशन
| पैरामीटर | डिफ़ॉल्ट | विवरण |
|---|---|---|
min_silence_duration | 0.5s | एक speech segment को समाप्त करने के लिए आवश्यक silence अवधि |
min_speech_duration | 0.15s | Detection trigger करने के लिए न्यूनतम speech अवधि |
महत्वपूर्ण
Android पर, VAD SpeechPipeline का हिस्सा है और standalone उपयोग नहीं किया जाता है। पाइपलाइन स्वचालित रूप से VAD → STT → TTS flow को हैंडल करती है। इंटीग्रेशन विवरण के लिए GitHub पर speech-android देखें।
सोर्स कोड: github.com/soniqo/speech-android