การตรวจจับเสียงพูด — Silero VAD

มีโมเดล VAD ให้เลือกสองตัว ได้แก่ Pyannote segmentation สำหรับการประมวลผลเป็นชุดแบบออฟไลน์ที่มีความแม่นยำสูง และ Silero VAD สำหรับการตรวจจับแบบสตรีมมิ่งที่มีดีเลย์ต่ำ ทั้งสองโมเดลทำงานบนอุปกรณ์ทั้งหมด

Pyannote (ออฟไลน์)

Pyannote segmentation-3.0 ให้ VAD ที่แม่นยำสูงโดยใช้สถาปัตยกรรม PyanNet โมเดลประมวลผลเสียงพูดในหน้าต่างเลื่อนขนาด 10 วินาที โดยมีการก้าวทีละ 1 วินาที จากนั้นรวมผลการพยากรณ์ที่ทับซ้อนกันและใช้การปรับให้เรียบแบบ hysteresis

สถาปัตยกรรม

ขั้นตอน	รายละเอียด
SincNet	40 ตัวกรองแถบความถี่ที่เรียนรู้ได้ (รวม 80: 40 cos + 40 sin)
BiLSTM	4 ชั้น, hidden=128, สองทิศทาง (เอาต์พุต 256 มิติ)
Linear	2 ชั้น linear กับ LeakyReLU (negative_slope=0.01)
เอาต์พุต	Softmax 7 คลาส พร้อมการประมวลผลภายหลังแบบ hysteresis

ขนาดโมเดล: ~1.49M พารามิเตอร์, ~5.7 MB บนดิสก์

ค่าเกณฑ์เริ่มต้น

Onset: 0.767 — ค่าความน่าจะเป็นที่เกินกว่านี้จะถือว่าตรวจพบเสียงพูด
Offset: 0.377 — ค่าความน่าจะเป็นที่ต่ำกว่านี้จะถือว่าเสียงพูดสิ้นสุดแล้ว

การใช้งาน CLI

# Offline VAD
.build/release/speech vad recording.wav

# JSON output
.build/release/speech vad recording.wav --json

# Custom thresholds
.build/release/speech vad recording.wav --onset 0.6 --offset 0.3

Silero VAD (สตรีมมิ่ง)

Silero VAD เป็นโมเดลสตรีมมิ่งขนาดเล็กที่ประมวลผล chunk ขนาด 512 ตัวอย่าง (32 ms ที่ 16 kHz) ทำงานได้เร็วกว่าเรียลไทม์ 23 เท่าในโหมด release จึงเหมาะกับแอปพลิเคชันเสียงแบบสด

การแยก backend: ตอนนี้ MLX และ CoreML ใช้ export ของ Silero v6.2.1 เป็นค่าเริ่มต้นทั้งคู่: aufklarer/Silero-VAD-v6.2.1-MLX และ aufklarer/Silero-VAD-v6.2.1-CoreML ทั้งคู่ยังคง API สตรีมมิ่ง 32 ms เดิมไว้

สถาปัตยกรรม

ขั้นตอน	รายละเอียด
STFT	Conv1d (1 ถึง 258 channels), reflection pad ฝั่งขวา 64
Encoder	4x Conv1d + ReLU
LSTM	Hidden size 128 รักษาสถานะข้าม chunk
Decoder	Conv1d (128 ถึง 1) บนสถานะ hidden ของ LSTM, เอาต์พุต sigmoid

ขนาดโมเดล: ~309K พารามิเตอร์, ~1.2 MB บนดิสก์

เครื่องสถานะของสตรีมมิ่ง

ตัวประมวลผล VAD สตรีมมิ่งใช้เครื่องสถานะ 4 สถานะเพื่อสร้างเซกเมนต์เสียงพูดที่สะอาด

silence — ยังไม่ตรวจพบเสียงพูด
pendingSpeech — เกินค่าเกณฑ์ onset แล้ว รอให้ครบระยะเวลาเสียงพูดขั้นต่ำ
speech — กำลังอยู่ในเซกเมนต์เสียงพูดที่ยืนยันแล้ว
pendingSilence — เกินค่าเกณฑ์ offset แล้ว รอให้ครบระยะเวลาเงียบขั้นต่ำ

ค่าเกณฑ์เริ่มต้น

Onset: 0.5
Offset: 0.35
ระยะเวลาเสียงพูดขั้นต่ำ: 0.25s
ระยะเวลาเงียบขั้นต่ำ: 0.1s

การใช้งาน CLI

# Streaming VAD
.build/release/speech vad-stream recording.wav

# Custom thresholds
.build/release/speech vad-stream recording.wav --onset 0.6 --offset 0.3

# Minimum durations
.build/release/speech vad-stream recording.wav --min-speech 0.5 --min-silence 0.2

# Choose engine
.build/release/speech vad-stream recording.wav --engine coreml

ตัวเลือก

ตัวเลือก	ใช้กับ	คำอธิบาย
`--onset`	ทั้งสอง	ค่าเกณฑ์ความน่าจะเป็นจุดเริ่มต้นเสียงพูด
`--offset`	ทั้งสอง	ค่าเกณฑ์ความน่าจะเป็นจุดสิ้นสุดเสียงพูด
`--min-speech`	สตรีมมิ่ง	ระยะเวลาขั้นต่ำของเซกเมนต์เสียงพูด (วินาที)
`--min-silence`	สตรีมมิ่ง	ระยะเวลาเงียบขั้นต่ำเพื่อสิ้นสุดเซกเมนต์ (วินาที)
`--engine`	สตรีมมิ่ง	Engine สำหรับ inference: `mlx` หรือ `coreml`
`--json`	ทั้งสอง	รูปแบบเอาต์พุต JSON

สำคัญ

สำหรับแอปพลิเคชันแบบเรียลไทม์ ให้ใช้ speech vad-stream กับ Silero VAD โมเดล Pyannote ต้องใช้ไฟล์เสียงทั้งหมดและเหมาะกว่าสำหรับการประมวลผลเป็นชุดแบบออฟไลน์ที่ให้ความสำคัญกับความแม่นยำเป็นหลัก

ดาวน์โหลดโมเดล

โมเดล	Backend	ขนาด	HuggingFace
Silero-VAD-v6.2.1	MLX	~1.2 MB	aufklarer/Silero-VAD-v6.2.1-MLX
Silero-VAD-v6.2.1	CoreML	~1.2 MB	aufklarer/Silero-VAD-v6.2.1-CoreML
Pyannote-Segmentation-3.0	MLX	~5.7 MB	aufklarer/Pyannote-Segmentation-MLX

API ของ Swift

import SpeechVAD

// Offline VAD (Pyannote)
let pyannote = try await PyannoteVADModel.fromPretrained()
let segments = pyannote.detectSpeech(audio: samples, sampleRate: 16000)
for segment in segments {
    print("\(segment.startTime)s - \(segment.endTime)s")
}

// Streaming VAD (Silero)
let silero = try await SileroVADModel.fromPretrained()
let processor = StreamingVADProcessor(model: silero, config: .sileroDefault)
for event in processor.process(samples: audioBuffer) {
    switch event {
    case .speechStarted(let time):
        print("Speech started at \(time)s")
    case .speechEnded(let segment):
        print("Speech: \(segment.startTime)s - \(segment.endTime)s")
    }
}

มีให้ใช้บน Android, Linux และ Windows ผ่าน ONNX Runtime ด้วยเช่นกัน