Silero VAD — Android
Silero VAD v5は、ONNX Runtime経由でAndroidとembedded Linux上で動作し、サブミリ秒レイテンシーでストリーミング音声区間検出を提供します。パイプラインの音声トリガーとして機能します — STTは音声が検出されたときにのみ実行され、計算を節約します。
モデル
| モデル | バックエンド | サイズ | HuggingFace |
|---|---|---|---|
| Silero-VAD-v5 | ONNX Runtime | 約2 MB | aufklarer/Silero-VAD-v5-ONNX |
パフォーマンス
| 指標 | 値 |
|---|---|
| チャンクサイズ | 32 ms (16 kHzで512サンプル) |
| レイテンシー | チャンクあたりサブミリ秒 |
| RTF | < 0.01 |
設定
| パラメーター | デフォルト | 説明 |
|---|---|---|
min_silence_duration | 0.5秒 | 音声セグメントを終了するために必要な無音継続時間 |
min_speech_duration | 0.15秒 | 検出をトリガーするための最小音声継続時間 |
重要
Androidでは、VADはSpeechPipelineの一部であり、スタンドアロンでは使用されません。パイプラインはVAD → STT → TTSフローを自動的に処理します。統合の詳細についてはGitHub上のspeech-androidを参照してください。
ソースコード: github.com/soniqo/speech-android