Benchmarks

1.0 से नीचे RTF (real-time factor) का अर्थ है रियल-टाइम से तेज़।

Apple Silicon (MLX + CoreML)

सभी बेंचमार्क M2 Max, 64 GB, macOS 14 पर रिलीज़ बिल्ड और कंपाइल्ड metallib के साथ।

ASR — Word Error Rate

LibriSpeech test-clean (2620 utterances, ~5.4 घंटे अंग्रेज़ी पठित स्पीच) पर मूल्यांकन।

मॉडलBitsआकारWER%RTF
Qwen3-ASR 1.7B8-bit2.3 GB2.350.090
Qwen3-ASR 1.7B4-bit1.2 GB2.570.045
Parakeet TDT 0.6BINT8634 MB2.740.089
Qwen3-ASR 0.6B8-bit960 MB2.800.025
Qwen3-ASR 0.6B4-bit675 MB3.340.023

प्रकाशित मॉडलों के साथ तुलना

मॉडलपैरामीटरआकारप्रिसिज़नWER%स्रोत
Qwen3-ASR 1.7B1.7B2.3 GB8-bit2.35यह बेंचमार्क
Whisper Large v3 Turbo809M1.6 GBFP162.5OpenAI (2024)
Qwen3-ASR 1.7B1.7B1.2 GB4-bit2.57यह बेंचमार्क
Whisper Large v31.5B3.1 GBFP162.7OpenAI (2023)
Parakeet TDT 0.6B600M634 MBINT82.74यह बेंचमार्क
Qwen3-ASR 0.6B600M960 MB8-bit2.80यह बेंचमार्क
Whisper Medium769M1.5 GBFP163.0OpenAI (2022)
Qwen3-ASR 0.6B600M675 MB4-bit3.34यह बेंचमार्क
Whisper Small244M483 MBFP163.4OpenAI (2022)

लंबी-अवधि स्थिरता (निरंतर Neural Engine लोड)

200 LibriSpeech utterances क्रमिक रूप से प्रोसेस किए गए (~30 मिनट ऑडियो, M2 Max)। परीक्षण करता है कि क्या निरंतर ट्रांसक्रिप्शन के तहत WER या लेटेंसी खराब होती है।

मेट्रिकपहले 25%अंतिम 25%कुल
WER%1.301.232.43
RTF0.6720.4000.539

कोई गिरावट नहीं देखी गई। WER सत्र भर में स्थिर है। RTF वास्तव में बेहतर होता है क्योंकि CoreML अपने execution plan cache को वार्म करता है। 42 मिनट के निरंतर Neural Engine इन्फ़रेंस के बाद कोई थर्मल थ्रॉटलिंग नहीं। Parakeet प्रत्येक chunk को स्वतंत्र रूप से प्रोसेस करता है — कोई क्रॉस-चंक स्टेट संचय नहीं।

बहुभाषी परिणाम (FLEURS)

CJK भाषाओं के लिए CER का उपयोग किया गया (कोई word boundaries नहीं)। Parakeet ~25 यूरोपीय भाषाओं का समर्थन करता है (कोई CJK नहीं)।

भाषामेट्रिकQwen3 4-bitQwen3 8-bitParakeet INT8
स्पेनिशWER6.445.065.18
अंग्रेज़ीWER6.575.649.30
चीनीCER8.417.71
जर्मनWER9.456.8112.33
फ़्रेंचWER11.428.5013.02
जापानीCER16.118.64
रूसीWER16.3510.5211.49
कोरियाईWER19.956.89
हिन्दीWER25.9318.57
अरबीWER33.4720.31

कम्प्रेशन डेल्टा

कम bit widths में क्वांटिज़ करने से सटीकता हानि।

वेरिएंटWER%SubstitutionsInsertionsDeletionsकुल त्रुटियाँआकार
Qwen3 0.6B 8-bit2.801111922681471960 MB
Qwen3 0.6B 4-bit3.3413231233081754675 MB
डेल्टा+0.54+212+31+40+283-30%
Parakeet TDT INT82.749901253081423634 MB
मुख्य निष्कर्ष

Qwen3-ASR 1.7B 8-bit 2.35% WER प्राप्त करता है — Whisper Large v3 Turbo (2.5%) और Whisper Large v3 (2.7%) को पार करते हुए, Apple Silicon पर 11x रियल-टाइम पर चलता है।

TTS — राउंड-ट्रिप इंटेलिजिबिलिटी

टेक्स्ट को synthesize करें, फिर ऑडियो को Qwen3-ASR 0.6B के साथ वापस ट्रांसक्राइब करें और मूल टेक्स्ट के विरुद्ध WER की गणना करें। 30 बिल्ट-इन अंग्रेज़ी संवादात्मक वाक्यों पर मूल्यांकन किया गया।

इंजनमॉडलपैरामीटरआकारWER%RTF
CosyVoice30.5B 4-bit500M~1.9 GB3.250.59
Qwen3-TTS1.7B 4-bit1.7B~2.3 GB3.470.79
Qwen3-TTS1.7B 8-bit1.7B~3.5 GB3.660.85
Kokoro-82MCoreML82M~170 MB3.900.17
Qwen3-TTS0.6B 8-bit600M~960 MB9.740.76
Qwen3-TTS0.6B 4-bit600M~675 MB15.580.76

लेटेंसी ब्रेकडाउन (Qwen3-TTS)

चरणसमयकुल का %विवरण
Embed1-3 ms<1%Text embedding (TTFT)
Generate2-6 s~92%Autoregressive codec tokens
Decode244-457 ms~8%Codec decoder to waveform
मुख्य निष्कर्ष

सभी TTS इंजन रियल-टाइम से तेज़ चलते हैं (RTF < 1.0)। CosyVoice3 इंटेलिजिबिलिटी में आगे है (3.25% WER)। Kokoro केवल 170 MB पर सबसे तेज़ है (RTF 0.17)।

VAD — डिटेक्शन सटीकता

FLEURS मूल्यांकन (10 भाषाएँ, 250 फ़ाइलें)

समान threshold पर Python FireRedVAD संदर्भ ground truth के विरुद्ध मूल्यांकन।

इंजनपैरामीटरबैकएंडF1%FAR%MR%RTF
FireRedVAD588KCoreML (ANE)99.122.520.470.007
Silero v5309KCoreML (ANE)95.1315.761.890.022
Silero v5309KMLX (GPU)95.1115.851.890.027
Pyannote1.5MMLX (GPU)94.8614.712.920.358

VoxConverse मूल्यांकन (multi-speaker)

5 multi-speaker कन्वर्सेशन फ़ाइलें 10 ms frame resolution पर मूल्यांकित।

इंजनपैरामीटरबैकएंडF1%FAR%MR%RTF
Pyannote1.5MMLX (GPU)98.2250.090.190.358
Silero v5309KCoreML (ANE)97.5233.292.690.022
Silero v5309KMLX (GPU)95.9821.025.880.027
FireRedVAD588KCoreML (ANE)94.2140.125.050.007

प्रकाशित संख्याओं के साथ तुलना

मॉडलF1%FAR%MR%पैरामीटरडेटासेट
Pyannote (हमारा)98.2250.090.191.5MVoxConverse
FireRedVAD (paper)97.572.693.62588KFLEURS-VAD-102
Silero (हमारा)95.9821.025.88309KVoxConverse
Silero-VAD (paper)95.959.413.95309KFLEURS-VAD-102
FireRedVAD (हमारा)94.2169.335.05588KVoxConverse
मुख्य निष्कर्ष

FireRedVAD FLEURS पर 99.12% F1 प्राप्त करता है, सबसे कम false alarm rate (2.52%) के साथ और 135x रियल-टाइम पर चलता है। Silero v5 प्रति chunk 32 ms पर सर्वश्रेष्ठ streaming विकल्प प्रदान करता है।

स्पीकर एम्बेडिंग

एक्सट्रैक्शन लेटेंसी

20-सेकंड ऑडियो क्लिप, warmup के बाद 10 iterations।

मॉडलDimबैकएंडलेटेंसी
CAM++ (3D-Speaker)192CoreML (ANE)12 ms
WeSpeaker ResNet34-LM256MLX (GPU)64 ms
WeSpeaker ResNet34-LM256CoreML (ANE)143 ms

एम्बेडिंग गुणवत्ता (VoxConverse)

5 multi-speaker रिकॉर्डिंग से segment-level embeddings के बीच cosine similarity। उच्च separation = बेहतर स्पीकर विभेदन।

मॉडलबैकएंडIntra-SpeakerInter-SpeakerSeparation
WeSpeakerMLX0.7260.1420.584
WeSpeakerCoreML0.7260.1430.582
CAM++CoreML0.7230.3950.328
मुख्य निष्कर्ष

तीनों इंजन Python pyannote संदर्भ से मेल खाते हैं (0.577 separation, cosine similarity >0.96)। WeSpeaker MLX और CoreML दोनों पर 0.584 separation प्राप्त करता है। CAM++ अच्छे separation (0.328) के साथ 5x तेज़ चलता है (12 ms बनाम 65 ms)।

सोर्स सेपरेशन — SDR

MUSDB18-HQ (50 पूर्ण-लंबाई टेस्ट ट्रैक, stereo 44.1kHz) पर Signal-to-Distortion Ratio (SDR)। उच्चतर बेहतर है। दो मॉडल आकार: HQ (8.9M params/stem) और L (28.3M params/stem)।

टारगेटUMX-HQ (MLX)UMX-L (MLX)UMX-HQ (प्रकाशित)
Vocals6.23 dB~10.5 dB6.32 dB
Drums6.44 dB~7.0 dB5.73 dB
Bass4.56 dB~5.5 dB5.23 dB
Other3.41 dB~4.5 dB4.02 dB
मॉडलParams/stemआकारRTFगति
Open-Unmix HQ8.9M136 MB0.234.3x रियल-टाइम
Open-Unmix L28.3M432 MB0.214.8x रियल-टाइम
मुख्य निष्कर्ष

UMX-HQ एक हल्के 8.9M मॉडल के साथ vocals और drums पर प्रकाशित SDR से मेल खाता है। UMX-L 3x मॉडल आकार पर +2–4 dB सुधार प्रदान करता है। दोनों multichannel Wiener EM पोस्ट-फ़िल्टरिंग शामिल करते हैं और Apple Silicon पर रियल-टाइम से तेज़ चलते हैं।

पुनरुत्पादन

# ASR benchmarks (LibriSpeech test-clean)
make build
python scripts/benchmark_asr.py --batch --engine qwen3 --model 0.6B
python scripts/benchmark_asr.py --batch --engine qwen3 --model 0.6B-8bit
python scripts/benchmark_asr.py --batch --engine parakeet
python scripts/benchmark_asr.py --batch --engine parakeet --model int8

# ASR multilingual (FLEURS, auto-download)
python scripts/benchmark_asr.py --dataset fleurs --language en_us --batch

# TTS round-trip
python scripts/benchmark_tts.py --compare

# VAD comparison
python scripts/benchmark_vad.py --compare

# Speaker embeddings comparison
python scripts/benchmark_speaker.py --compare

# Source separation (MUSDB18-HQ, download from Zenodo)
python scripts/benchmark_separation.py --data-dir benchmarks/data/musdb18-hq