Silero VAD — Android

Silero VAD v5は、ONNX Runtime経由でAndroidとembedded Linux上で動作し、サブミリ秒レイテンシーでストリーミング音声区間検出を提供します。パイプラインの音声トリガーとして機能します — STTは音声が検出されたときにのみ実行され、計算を節約します。

モデル

モデルバックエンドサイズHuggingFace
Silero-VAD-v5ONNX Runtime約2 MBaufklarer/Silero-VAD-v5-ONNX

パフォーマンス

指標
チャンクサイズ32 ms (16 kHzで512サンプル)
レイテンシーチャンクあたりサブミリ秒
RTF< 0.01

設定

パラメーターデフォルト説明
min_silence_duration0.5秒音声セグメントを終了するために必要な無音継続時間
min_speech_duration0.15秒検出をトリガーするための最小音声継続時間
重要

Androidでは、VADはSpeechPipelineの一部であり、スタンドアロンでは使用されません。パイプラインはVAD → STT → TTSフローを自動的に処理します。統合の詳細についてはGitHub上のspeech-androidを参照してください。

ソースコード: github.com/soniqo/speech-android