Silero VAD — Android
Silero VAD v5 chạy trên Android và Linux nhúng qua ONNX Runtime, cung cấp phát hiện hoạt động giọng nói streaming với độ trễ dưới một mili-giây. Mô hình đóng vai trò kích hoạt giọng nói cho pipeline — STT chỉ chạy khi phát hiện thấy tiếng nói, tiết kiệm tài nguyên tính toán.
Mô hình
| Mô hình | Backend | Kích thước | HuggingFace |
|---|---|---|---|
| Silero-VAD-v5 | ONNX Runtime | ~2 MB | aufklarer/Silero-VAD-v5-ONNX |
Hiệu năng
| Chỉ số | Giá trị |
|---|---|
| Kích thước chunk | 32 ms (512 mẫu ở 16 kHz) |
| Độ trễ | Dưới một mili-giây mỗi chunk |
| RTF | < 0.01 |
Cấu hình
| Tham số | Mặc định | Mô tả |
|---|---|---|
min_silence_duration | 0.5s | Thời lượng im lặng cần thiết để kết thúc một đoạn giọng nói |
min_speech_duration | 0.15s | Thời lượng giọng nói tối thiểu để kích hoạt phát hiện |
Quan trọng
Trên Android, VAD là một phần của SpeechPipeline và không được dùng độc lập. Pipeline tự động xử lý luồng VAD → STT → TTS. Xem speech-android trên GitHub để biết chi tiết tích hợp.
Mã nguồn: github.com/soniqo/speech-android