Silero VAD — Android

Silero VAD v5는 ONNX Runtime을 통해 Android와 임베디드 Linux에서 실행되며, 밀리초 미만 지연으로 스트리밍 음성 활동 감지를 제공합니다. 파이프라인의 음성 트리거 역할을 하며, 음성이 감지될 때만 STT가 실행되어 연산을 절약합니다.

모델

모델백엔드크기HuggingFace
Silero-VAD-v5ONNX Runtime약 2 MBaufklarer/Silero-VAD-v5-ONNX

성능

지표
청크 크기32 ms (16 kHz에서 512 샘플)
지연청크당 밀리초 미만
RTF< 0.01

구성

파라미터기본값설명
min_silence_duration0.5s음성 세그먼트를 종료하기 위해 필요한 침묵 지속 시간
min_speech_duration0.15s감지를 트리거하기 위한 최소 음성 지속 시간
중요

Android에서 VAD는 SpeechPipeline의 일부이며 단독으로 사용되지 않습니다. 파이프라인은 VAD → STT → TTS 흐름을 자동으로 처리합니다. 통합 세부 사항은 GitHub의 speech-android를 참조하세요.

소스 코드: github.com/soniqo/speech-android