Silero VAD — Android

Silero VAD v5 chạy trên Android và Linux nhúng qua ONNX Runtime, cung cấp phát hiện hoạt động giọng nói streaming với độ trễ dưới một mili-giây. Mô hình đóng vai trò kích hoạt giọng nói cho pipeline — STT chỉ chạy khi phát hiện thấy tiếng nói, tiết kiệm tài nguyên tính toán.

Mô hình

Mô hìnhBackendKích thướcHuggingFace
Silero-VAD-v5ONNX Runtime~2 MBaufklarer/Silero-VAD-v5-ONNX

Hiệu năng

Chỉ sốGiá trị
Kích thước chunk32 ms (512 mẫu ở 16 kHz)
Độ trễDưới một mili-giây mỗi chunk
RTF< 0.01

Cấu hình

Tham sốMặc địnhMô tả
min_silence_duration0.5sThời lượng im lặng cần thiết để kết thúc một đoạn giọng nói
min_speech_duration0.15sThời lượng giọng nói tối thiểu để kích hoạt phát hiện
Quan trọng

Trên Android, VAD là một phần của SpeechPipeline và không được dùng độc lập. Pipeline tự động xử lý luồng VAD → STT → TTS. Xem speech-android trên GitHub để biết chi tiết tích hợp.

Mã nguồn: github.com/soniqo/speech-android