Detecção de atividade de voz — Silero VAD

Dois modelos VAD estao disponiveis: Pyannote segmentation para processamento batch offline com alta precisao e Silero VAD para deteccao em streaming de baixa latencia. Ambos rodam totalmente no dispositivo.

Pyannote (offline)

Pyannote segmentation-3.0 fornece VAD de alta precisao usando uma arquitetura PyanNet. Processa audio em janelas deslizantes de 10 segundos com passo de 1 segundo, depois agrega predicoes sobrepostas e aplica suavizacao por histerese.

Arquitetura

Estagio	Detalhes
SincNet	40 filtros bandpass aprendidos (80 no total: 40 cos + 40 sin)
BiLSTM	4 camadas, hidden=128, bidirecional (saida de 256 dim)
Linear	2 camadas lineares com LeakyReLU (negative_slope=0.01)
Saida	Softmax de 7 classes com pos-processamento por histerese

Tamanho do modelo: ~1.49M parametros, ~5.7 MB em disco.

Limiares padrao

Onset: 0.767 — probabilidade acima da qual fala e detectada
Offset: 0.377 — probabilidade abaixo da qual fala termina

Uso do CLI

# Offline VAD
.build/release/speech vad recording.wav

# JSON output
.build/release/speech vad recording.wav --json

# Custom thresholds
.build/release/speech vad recording.wav --onset 0.6 --offset 0.3

Silero VAD (streaming)

Silero VAD e um modelo de streaming leve que processa chunks de 512 amostras (32 ms a 16 kHz). Roda a 23x tempo real em modo release, tornando-o adequado para aplicacoes de audio ao vivo.

Divisão de backends: MLX e CoreML agora usam por padrão exports Silero v6.2.1: aufklarer/Silero-VAD-v6.2.1-MLX e aufklarer/Silero-VAD-v6.2.1-CoreML. Ambos mantêm a mesma API de streaming de 32 ms.

Arquitetura

Estagio	Detalhes
STFT	Conv1d (1 para 258 canais), pad de reflexao somente a direita de 64
Codificador	4x Conv1d + ReLU
LSTM	Tamanho hidden 128, estado carregado entre chunks
Decodificador	Conv1d (128 para 1) no estado hidden do LSTM, saida sigmoid

Tamanho do modelo: ~309K parametros, ~1.2 MB em disco.

Maquina de estados de streaming

O processador de VAD em streaming usa uma maquina de 4 estados para produzir segmentos de fala limpos:

silence — nenhuma fala detectada
pendingSpeech — limiar de onset ultrapassado, aguardando duracao minima de fala
speech — segmento de fala confirmado em andamento
pendingSilence — limiar de offset ultrapassado, aguardando duracao minima de silencio

Limiares padrao

Onset: 0.5
Offset: 0.35
Duracao minima de fala: 0.25s
Duracao minima de silencio: 0.1s

Uso do CLI

# Streaming VAD
.build/release/speech vad-stream recording.wav

# Custom thresholds
.build/release/speech vad-stream recording.wav --onset 0.6 --offset 0.3

# Minimum durations
.build/release/speech vad-stream recording.wav --min-speech 0.5 --min-silence 0.2

# Choose engine
.build/release/speech vad-stream recording.wav --engine coreml

Opcoes

Opcao	Aplica-se a	Descricao
`--onset`	Ambos	Limiar de probabilidade de onset de fala
`--offset`	Ambos	Limiar de probabilidade de offset de fala
`--min-speech`	Streaming	Duracao minima de segmento de fala (segundos)
`--min-silence`	Streaming	Duracao minima de silencio para encerrar segmento (segundos)
`--engine`	Streaming	Engine de inferencia: `mlx` ou `coreml`
`--json`	Ambos	Formato de saida JSON

Importante

Para aplicacoes em tempo real, use speech vad-stream com Silero VAD. O modelo Pyannote requer o arquivo de audio completo e e mais adequado para processamento batch offline onde a precisao e a prioridade.

Downloads de modelos

Modelo	Backend	Tamanho	HuggingFace
Silero-VAD-v6.2.1	MLX	~1.2 MB	aufklarer/Silero-VAD-v6.2.1-MLX
Silero-VAD-v6.2.1	CoreML	~1.2 MB	aufklarer/Silero-VAD-v6.2.1-CoreML
Pyannote-Segmentation-3.0	MLX	~5.7 MB	aufklarer/Pyannote-Segmentation-MLX

API Swift

import SpeechVAD

// Offline VAD (Pyannote)
let pyannote = try await PyannoteVADModel.fromPretrained()
let segments = pyannote.detectSpeech(audio: samples, sampleRate: 16000)
for segment in segments {
    print("\(segment.startTime)s - \(segment.endTime)s")
}

// Streaming VAD (Silero)
let silero = try await SileroVADModel.fromPretrained()
let processor = StreamingVADProcessor(model: silero, config: .sileroDefault)
for event in processor.process(samples: audioBuffer) {
    switch event {
    case .speechStarted(let time):
        print("Speech started at \(time)s")
    case .speechEnded(let segment):
        print("Speech: \(segment.startTime)s - \(segment.endTime)s")
    }
}

Tambem disponivel em Android, Linux e Windows via ONNX Runtime.