Silero VAD — Android
Silero VAD v5 ทำงานบน Android และ Linux แบบฝังตัวผ่าน ONNX Runtime ให้การตรวจจับเสียงพูดแบบสตรีมมิ่งด้วยดีเลย์ต่ำกว่าหนึ่งมิลลิวินาที โดยทำหน้าที่เป็นตัวกระตุ้นเสียงพูดของไปป์ไลน์ — STT จะรันก็ต่อเมื่อตรวจพบเสียงพูดเท่านั้น จึงช่วยประหยัดทรัพยากรการคำนวณ
โมเดล
| โมเดล | Backend | ขนาด | HuggingFace |
|---|---|---|---|
| Silero-VAD-v5 | ONNX Runtime | ~2 MB | aufklarer/Silero-VAD-v5-ONNX |
ประสิทธิภาพ
| ตัวชี้วัด | ค่า |
|---|---|
| ขนาด chunk | 32 ms (512 ตัวอย่างที่ 16 kHz) |
| ดีเลย์ | ต่ำกว่าหนึ่งมิลลิวินาทีต่อ chunk |
| RTF | < 0.01 |
การตั้งค่า
| พารามิเตอร์ | ค่าเริ่มต้น | คำอธิบาย |
|---|---|---|
min_silence_duration | 0.5s | ระยะเวลาเงียบที่ต้องมีเพื่อสิ้นสุดเซกเมนต์เสียงพูด |
min_speech_duration | 0.15s | ระยะเวลาเสียงพูดขั้นต่ำเพื่อกระตุ้นการตรวจจับ |
สำคัญ
บน Android, VAD เป็นส่วนหนึ่งของ SpeechPipeline และไม่ได้ใช้แบบอิสระ ไปป์ไลน์จะจัดการลำดับ VAD → STT → TTS โดยอัตโนมัติ ดู speech-android บน GitHub สำหรับรายละเอียดการรวมระบบ
โค้ดต้นทาง: github.com/soniqo/speech-android