Silero VAD — Android

Silero VAD v5 ทำงานบน Android, Linux แบบฝังตัว และ Windowsผ่าน ONNX Runtime ให้การตรวจจับเสียงพูดแบบสตรีมมิ่งด้วยดีเลย์ต่ำกว่าหนึ่งมิลลิวินาที โดยทำหน้าที่เป็นตัวกระตุ้นเสียงพูดของไปป์ไลน์ — STT จะรันก็ต่อเมื่อตรวจพบเสียงพูดเท่านั้น จึงช่วยประหยัดทรัพยากรการคำนวณ

โมเดล

โมเดล	Backend	ขนาด	HuggingFace
Silero-VAD-v5	ONNX Runtime	~2 MB	soniqo/Silero-VAD-v5-ONNX

ประสิทธิภาพ

ตัวชี้วัด	ค่า
ขนาด chunk	32 ms (512 ตัวอย่างที่ 16 kHz)
ดีเลย์	ต่ำกว่าหนึ่งมิลลิวินาทีต่อ chunk
RTF	< 0.01

การตั้งค่า

พารามิเตอร์	ค่าเริ่มต้น	คำอธิบาย
`min_silence_duration`	0.5s	ระยะเวลาเงียบที่ต้องมีเพื่อสิ้นสุดเซกเมนต์เสียงพูด
`min_speech_duration`	0.15s	ระยะเวลาเสียงพูดขั้นต่ำเพื่อกระตุ้นการตรวจจับ

สำคัญ

บน Android, VAD เป็นส่วนหนึ่งของ SpeechPipeline และไม่ได้ใช้แบบอิสระ ไปป์ไลน์จะจัดการลำดับ VAD → STT → TTS โดยอัตโนมัติ ดู speech-android บน GitHub สำหรับรายละเอียดการรวมระบบ

โค้ดต้นทาง: github.com/soniqo/speech-android