Silero VAD — Android
Silero VAD v5는 ONNX Runtime을 통해 Android와 임베디드 Linux에서 실행되며, 밀리초 미만 지연으로 스트리밍 음성 활동 감지를 제공합니다. 파이프라인의 음성 트리거 역할을 하며, 음성이 감지될 때만 STT가 실행되어 연산을 절약합니다.
모델
| 모델 | 백엔드 | 크기 | HuggingFace |
|---|---|---|---|
| Silero-VAD-v5 | ONNX Runtime | 약 2 MB | aufklarer/Silero-VAD-v5-ONNX |
성능
| 지표 | 값 |
|---|---|
| 청크 크기 | 32 ms (16 kHz에서 512 샘플) |
| 지연 | 청크당 밀리초 미만 |
| RTF | < 0.01 |
구성
| 파라미터 | 기본값 | 설명 |
|---|---|---|
min_silence_duration | 0.5s | 음성 세그먼트를 종료하기 위해 필요한 침묵 지속 시간 |
min_speech_duration | 0.15s | 감지를 트리거하기 위한 최소 음성 지속 시간 |
중요
Android에서 VAD는 SpeechPipeline의 일부이며 단독으로 사용되지 않습니다. 파이프라인은 VAD → STT → TTS 흐름을 자동으로 처리합니다. 통합 세부 사항은 GitHub의 speech-android를 참조하세요.