Benchmarks
1.0 से नीचे RTF (real-time factor) का अर्थ है रियल-टाइम से तेज़।
Apple Silicon (MLX + CoreML)
सभी बेंचमार्क M2 Max, 64 GB, macOS 14 पर रिलीज़ बिल्ड और कंपाइल्ड metallib के साथ।
ASR — Word Error Rate
LibriSpeech test-clean (2620 utterances, ~5.4 घंटे अंग्रेज़ी पठित स्पीच) पर मूल्यांकन।
| मॉडल | Bits | आकार | WER% | RTF |
|---|---|---|---|---|
| Qwen3-ASR 1.7B | 8-bit | 2.3 GB | 2.35 | 0.090 |
| Qwen3-ASR 1.7B | 4-bit | 1.2 GB | 2.57 | 0.045 |
| Parakeet TDT 0.6B | INT8 | 634 MB | 2.74 | 0.089 |
| Qwen3-ASR 0.6B | 8-bit | 960 MB | 2.80 | 0.025 |
| Qwen3-ASR 0.6B | 4-bit | 675 MB | 3.34 | 0.023 |
प्रकाशित मॉडलों के साथ तुलना
| मॉडल | पैरामीटर | आकार | प्रिसिज़न | WER% | स्रोत |
|---|---|---|---|---|---|
| Qwen3-ASR 1.7B | 1.7B | 2.3 GB | 8-bit | 2.35 | यह बेंचमार्क |
| Whisper Large v3 Turbo | 809M | 1.6 GB | FP16 | 2.5 | OpenAI (2024) |
| Qwen3-ASR 1.7B | 1.7B | 1.2 GB | 4-bit | 2.57 | यह बेंचमार्क |
| Whisper Large v3 | 1.5B | 3.1 GB | FP16 | 2.7 | OpenAI (2023) |
| Parakeet TDT 0.6B | 600M | 634 MB | INT8 | 2.74 | यह बेंचमार्क |
| Qwen3-ASR 0.6B | 600M | 960 MB | 8-bit | 2.80 | यह बेंचमार्क |
| Whisper Medium | 769M | 1.5 GB | FP16 | 3.0 | OpenAI (2022) |
| Qwen3-ASR 0.6B | 600M | 675 MB | 4-bit | 3.34 | यह बेंचमार्क |
| Whisper Small | 244M | 483 MB | FP16 | 3.4 | OpenAI (2022) |
लंबी-अवधि स्थिरता (निरंतर Neural Engine लोड)
200 LibriSpeech utterances क्रमिक रूप से प्रोसेस किए गए (~30 मिनट ऑडियो, M2 Max)। परीक्षण करता है कि क्या निरंतर ट्रांसक्रिप्शन के तहत WER या लेटेंसी खराब होती है।
| मेट्रिक | पहले 25% | अंतिम 25% | कुल |
|---|---|---|---|
| WER% | 1.30 | 1.23 | 2.43 |
| RTF | 0.672 | 0.400 | 0.539 |
कोई गिरावट नहीं देखी गई। WER सत्र भर में स्थिर है। RTF वास्तव में बेहतर होता है क्योंकि CoreML अपने execution plan cache को वार्म करता है। 42 मिनट के निरंतर Neural Engine इन्फ़रेंस के बाद कोई थर्मल थ्रॉटलिंग नहीं। Parakeet प्रत्येक chunk को स्वतंत्र रूप से प्रोसेस करता है — कोई क्रॉस-चंक स्टेट संचय नहीं।
बहुभाषी परिणाम (FLEURS)
CJK भाषाओं के लिए CER का उपयोग किया गया (कोई word boundaries नहीं)। Parakeet ~25 यूरोपीय भाषाओं का समर्थन करता है (कोई CJK नहीं)।
| भाषा | मेट्रिक | Qwen3 4-bit | Qwen3 8-bit | Parakeet INT8 |
|---|---|---|---|---|
| स्पेनिश | WER | 6.44 | 5.06 | 5.18 |
| अंग्रेज़ी | WER | 6.57 | 5.64 | 9.30 |
| चीनी | CER | 8.41 | 7.71 | — |
| जर्मन | WER | 9.45 | 6.81 | 12.33 |
| फ़्रेंच | WER | 11.42 | 8.50 | 13.02 |
| जापानी | CER | 16.11 | 8.64 | — |
| रूसी | WER | 16.35 | 10.52 | 11.49 |
| कोरियाई | WER | 19.95 | 6.89 | — |
| हिन्दी | WER | 25.93 | 18.57 | — |
| अरबी | WER | 33.47 | 20.31 | — |
कम्प्रेशन डेल्टा
कम bit widths में क्वांटिज़ करने से सटीकता हानि।
| वेरिएंट | WER% | Substitutions | Insertions | Deletions | कुल त्रुटियाँ | आकार |
|---|---|---|---|---|---|---|
| Qwen3 0.6B 8-bit | 2.80 | 1111 | 92 | 268 | 1471 | 960 MB |
| Qwen3 0.6B 4-bit | 3.34 | 1323 | 123 | 308 | 1754 | 675 MB |
| डेल्टा | +0.54 | +212 | +31 | +40 | +283 | -30% |
| Parakeet TDT INT8 | 2.74 | 990 | 125 | 308 | 1423 | 634 MB |
Qwen3-ASR 1.7B 8-bit 2.35% WER प्राप्त करता है — Whisper Large v3 Turbo (2.5%) और Whisper Large v3 (2.7%) को पार करते हुए, Apple Silicon पर 11x रियल-टाइम पर चलता है।
TTS — राउंड-ट्रिप इंटेलिजिबिलिटी
टेक्स्ट को synthesize करें, फिर ऑडियो को Qwen3-ASR 0.6B के साथ वापस ट्रांसक्राइब करें और मूल टेक्स्ट के विरुद्ध WER की गणना करें। 30 बिल्ट-इन अंग्रेज़ी संवादात्मक वाक्यों पर मूल्यांकन किया गया।
| इंजन | मॉडल | पैरामीटर | आकार | WER% | RTF |
|---|---|---|---|---|---|
| CosyVoice3 | 0.5B 4-bit | 500M | ~1.9 GB | 3.25 | 0.59 |
| Qwen3-TTS | 1.7B 4-bit | 1.7B | ~2.3 GB | 3.47 | 0.79 |
| Qwen3-TTS | 1.7B 8-bit | 1.7B | ~3.5 GB | 3.66 | 0.85 |
| Kokoro-82M | CoreML | 82M | ~170 MB | 3.90 | 0.17 |
| Qwen3-TTS | 0.6B 8-bit | 600M | ~960 MB | 9.74 | 0.76 |
| Qwen3-TTS | 0.6B 4-bit | 600M | ~675 MB | 15.58 | 0.76 |
लेटेंसी ब्रेकडाउन (Qwen3-TTS)
| चरण | समय | कुल का % | विवरण |
|---|---|---|---|
| Embed | 1-3 ms | <1% | Text embedding (TTFT) |
| Generate | 2-6 s | ~92% | Autoregressive codec tokens |
| Decode | 244-457 ms | ~8% | Codec decoder to waveform |
सभी TTS इंजन रियल-टाइम से तेज़ चलते हैं (RTF < 1.0)। CosyVoice3 इंटेलिजिबिलिटी में आगे है (3.25% WER)। Kokoro केवल 170 MB पर सबसे तेज़ है (RTF 0.17)।
VAD — डिटेक्शन सटीकता
FLEURS मूल्यांकन (10 भाषाएँ, 250 फ़ाइलें)
समान threshold पर Python FireRedVAD संदर्भ ground truth के विरुद्ध मूल्यांकन।
| इंजन | पैरामीटर | बैकएंड | F1% | FAR% | MR% | RTF |
|---|---|---|---|---|---|---|
| FireRedVAD | 588K | CoreML (ANE) | 99.12 | 2.52 | 0.47 | 0.007 |
| Silero v5 | 309K | CoreML (ANE) | 95.13 | 15.76 | 1.89 | 0.022 |
| Silero v5 | 309K | MLX (GPU) | 95.11 | 15.85 | 1.89 | 0.027 |
| Pyannote | 1.5M | MLX (GPU) | 94.86 | 14.71 | 2.92 | 0.358 |
VoxConverse मूल्यांकन (multi-speaker)
5 multi-speaker कन्वर्सेशन फ़ाइलें 10 ms frame resolution पर मूल्यांकित।
| इंजन | पैरामीटर | बैकएंड | F1% | FAR% | MR% | RTF |
|---|---|---|---|---|---|---|
| Pyannote | 1.5M | MLX (GPU) | 98.22 | 50.09 | 0.19 | 0.358 |
| Silero v5 | 309K | CoreML (ANE) | 97.52 | 33.29 | 2.69 | 0.022 |
| Silero v5 | 309K | MLX (GPU) | 95.98 | 21.02 | 5.88 | 0.027 |
| FireRedVAD | 588K | CoreML (ANE) | 94.21 | 40.12 | 5.05 | 0.007 |
प्रकाशित संख्याओं के साथ तुलना
| मॉडल | F1% | FAR% | MR% | पैरामीटर | डेटासेट |
|---|---|---|---|---|---|
| Pyannote (हमारा) | 98.22 | 50.09 | 0.19 | 1.5M | VoxConverse |
| FireRedVAD (paper) | 97.57 | 2.69 | 3.62 | 588K | FLEURS-VAD-102 |
| Silero (हमारा) | 95.98 | 21.02 | 5.88 | 309K | VoxConverse |
| Silero-VAD (paper) | 95.95 | 9.41 | 3.95 | 309K | FLEURS-VAD-102 |
| FireRedVAD (हमारा) | 94.21 | 69.33 | 5.05 | 588K | VoxConverse |
FireRedVAD FLEURS पर 99.12% F1 प्राप्त करता है, सबसे कम false alarm rate (2.52%) के साथ और 135x रियल-टाइम पर चलता है। Silero v5 प्रति chunk 32 ms पर सर्वश्रेष्ठ streaming विकल्प प्रदान करता है।
स्पीकर एम्बेडिंग
एक्सट्रैक्शन लेटेंसी
20-सेकंड ऑडियो क्लिप, warmup के बाद 10 iterations।
| मॉडल | Dim | बैकएंड | लेटेंसी |
|---|---|---|---|
| CAM++ (3D-Speaker) | 192 | CoreML (ANE) | 12 ms |
| WeSpeaker ResNet34-LM | 256 | MLX (GPU) | 64 ms |
| WeSpeaker ResNet34-LM | 256 | CoreML (ANE) | 143 ms |
एम्बेडिंग गुणवत्ता (VoxConverse)
5 multi-speaker रिकॉर्डिंग से segment-level embeddings के बीच cosine similarity। उच्च separation = बेहतर स्पीकर विभेदन।
| मॉडल | बैकएंड | Intra-Speaker | Inter-Speaker | Separation |
|---|---|---|---|---|
| WeSpeaker | MLX | 0.726 | 0.142 | 0.584 |
| WeSpeaker | CoreML | 0.726 | 0.143 | 0.582 |
| CAM++ | CoreML | 0.723 | 0.395 | 0.328 |
तीनों इंजन Python pyannote संदर्भ से मेल खाते हैं (0.577 separation, cosine similarity >0.96)। WeSpeaker MLX और CoreML दोनों पर 0.584 separation प्राप्त करता है। CAM++ अच्छे separation (0.328) के साथ 5x तेज़ चलता है (12 ms बनाम 65 ms)।
सोर्स सेपरेशन — SDR
MUSDB18-HQ (50 पूर्ण-लंबाई टेस्ट ट्रैक, stereo 44.1kHz) पर Signal-to-Distortion Ratio (SDR)। उच्चतर बेहतर है। दो मॉडल आकार: HQ (8.9M params/stem) और L (28.3M params/stem)।
| टारगेट | UMX-HQ (MLX) | UMX-L (MLX) | UMX-HQ (प्रकाशित) |
|---|---|---|---|
| Vocals | 6.23 dB | ~10.5 dB | 6.32 dB |
| Drums | 6.44 dB | ~7.0 dB | 5.73 dB |
| Bass | 4.56 dB | ~5.5 dB | 5.23 dB |
| Other | 3.41 dB | ~4.5 dB | 4.02 dB |
| मॉडल | Params/stem | आकार | RTF | गति |
|---|---|---|---|---|
| Open-Unmix HQ | 8.9M | 136 MB | 0.23 | 4.3x रियल-टाइम |
| Open-Unmix L | 28.3M | 432 MB | 0.21 | 4.8x रियल-टाइम |
UMX-HQ एक हल्के 8.9M मॉडल के साथ vocals और drums पर प्रकाशित SDR से मेल खाता है। UMX-L 3x मॉडल आकार पर +2–4 dB सुधार प्रदान करता है। दोनों multichannel Wiener EM पोस्ट-फ़िल्टरिंग शामिल करते हैं और Apple Silicon पर रियल-टाइम से तेज़ चलते हैं।
पुनरुत्पादन
# ASR benchmarks (LibriSpeech test-clean)
make build
python scripts/benchmark_asr.py --batch --engine qwen3 --model 0.6B
python scripts/benchmark_asr.py --batch --engine qwen3 --model 0.6B-8bit
python scripts/benchmark_asr.py --batch --engine parakeet
python scripts/benchmark_asr.py --batch --engine parakeet --model int8
# ASR multilingual (FLEURS, auto-download)
python scripts/benchmark_asr.py --dataset fleurs --language en_us --batch
# TTS round-trip
python scripts/benchmark_tts.py --compare
# VAD comparison
python scripts/benchmark_vad.py --compare
# Speaker embeddings comparison
python scripts/benchmark_speaker.py --compare
# Source separation (MUSDB18-HQ, download from Zenodo)
python scripts/benchmark_separation.py --data-dir benchmarks/data/musdb18-hq