Silero VAD — Android

Silero VAD v5 ทำงานบน Android และ Linux แบบฝังตัวผ่าน ONNX Runtime ให้การตรวจจับเสียงพูดแบบสตรีมมิ่งด้วยดีเลย์ต่ำกว่าหนึ่งมิลลิวินาที โดยทำหน้าที่เป็นตัวกระตุ้นเสียงพูดของไปป์ไลน์ — STT จะรันก็ต่อเมื่อตรวจพบเสียงพูดเท่านั้น จึงช่วยประหยัดทรัพยากรการคำนวณ

โมเดล

โมเดลBackendขนาดHuggingFace
Silero-VAD-v5ONNX Runtime~2 MBaufklarer/Silero-VAD-v5-ONNX

ประสิทธิภาพ

ตัวชี้วัดค่า
ขนาด chunk32 ms (512 ตัวอย่างที่ 16 kHz)
ดีเลย์ต่ำกว่าหนึ่งมิลลิวินาทีต่อ chunk
RTF< 0.01

การตั้งค่า

พารามิเตอร์ค่าเริ่มต้นคำอธิบาย
min_silence_duration0.5sระยะเวลาเงียบที่ต้องมีเพื่อสิ้นสุดเซกเมนต์เสียงพูด
min_speech_duration0.15sระยะเวลาเสียงพูดขั้นต่ำเพื่อกระตุ้นการตรวจจับ
สำคัญ

บน Android, VAD เป็นส่วนหนึ่งของ SpeechPipeline และไม่ได้ใช้แบบอิสระ ไปป์ไลน์จะจัดการลำดับ VAD → STT → TTS โดยอัตโนมัติ ดู speech-android บน GitHub สำหรับรายละเอียดการรวมระบบ

โค้ดต้นทาง: github.com/soniqo/speech-android