Benchmarks

RTF (real-time factor) abaixo de 1.0 significa mais rapido que tempo real.

Apple Silicon (MLX + CoreML)

Todos os benchmarks em M2 Max, 64 GB, macOS 14 com builds de release e metallib compilada.

ASR — Taxa de erro de palavra

Avaliado em LibriSpeech test-clean (2620 enunciados, ~5.4 horas de fala lida em ingles).

Modelo	Bits	Tamanho	WER%	RTF
Qwen3-ASR 1.7B	8-bit	2.3 GB	2.35	0.090
Qwen3-ASR 1.7B	4-bit	1.2 GB	2.57	0.045
Parakeet TDT 0.6B	INT8	634 MB	2.74	0.089
Qwen3-ASR 0.6B	8-bit	960 MB	2.80	0.025
Qwen3-ASR 0.6B	4-bit	675 MB	3.34	0.023

Comparacao com modelos publicados

Modelo	Parametros	Tamanho	Precisao	WER%	Fonte
Qwen3-ASR 1.7B	1.7B	2.3 GB	8-bit	2.35	Este benchmark
Whisper Large v3 Turbo	809M	1.6 GB	FP16	2.5	OpenAI (2024)
Qwen3-ASR 1.7B	1.7B	1.2 GB	4-bit	2.57	Este benchmark
Whisper Large v3	1.5B	3.1 GB	FP16	2.7	OpenAI (2023)
Parakeet TDT 0.6B	600M	634 MB	INT8	2.74	Este benchmark
Qwen3-ASR 0.6B	600M	960 MB	8-bit	2.80	Este benchmark
Whisper Medium	769M	1.5 GB	FP16	3.0	OpenAI (2022)
Qwen3-ASR 0.6B	600M	675 MB	4-bit	3.34	Este benchmark
Whisper Small	244M	483 MB	FP16	3.4	OpenAI (2022)

Estabilidade em longa duracao (carga sustentada no Neural Engine)

200 enunciados LibriSpeech processados sequencialmente (~30 min de audio, M2 Max). Testa se a WER ou a latencia degradam sob transcricao sustentada.

Metrica	Primeiros 25%	Ultimos 25%	Geral
WER%	1.30	1.23	2.43
RTF	0.672	0.400	0.539

Nenhuma degradacao detectada. A WER e estavel durante a sessao. O RTF na verdade melhora conforme o CoreML aquece seu cache de plano de execucao. Nenhum thermal throttling apos 42 minutos de inferencia continua no Neural Engine. O Parakeet processa cada chunk independentemente — sem acumulacao de estado entre chunks.

Resultados multilingues (FLEURS)

CER usado para idiomas CJK (sem fronteiras de palavras). Parakeet suporta ~25 idiomas europeus (sem CJK).

Idioma	Metrica	Qwen3 4-bit	Qwen3 8-bit	Parakeet INT8
Espanhol	WER	6.44	5.06	5.18
Ingles	WER	6.57	5.64	9.30
Chines	CER	8.41	7.71	—
Alemao	WER	9.45	6.81	12.33
Frances	WER	11.42	8.50	13.02
Japones	CER	16.11	8.64	—
Russo	WER	16.35	10.52	11.49
Coreano	WER	19.95	6.89	—
Hindi	WER	25.93	18.57	—
Arabe	WER	33.47	20.31	—

Delta de compressao

Perda de precisao ao quantizar para larguras de bits menores.

Variante	WER%	Substituicoes	Insercoes	Delecoes	Erros totais	Tamanho
Qwen3 0.6B 8-bit	2.80	1111	92	268	1471	960 MB
Qwen3 0.6B 4-bit	3.34	1323	123	308	1754	675 MB
Delta	+0.54	+212	+31	+40	+283	-30%
Parakeet TDT INT8	2.74	990	125	308	1423	634 MB

Principal conclusao

Qwen3-ASR 1.7B 8-bit atinge 2.35% de WER — superando Whisper Large v3 Turbo (2.5%) e Whisper Large v3 (2.7%) enquanto roda a 11x tempo real em Apple Silicon.

TTS — Inteligibilidade round-trip

Sintetize texto, depois transcreva o audio de volta com Qwen3-ASR 0.6B e calcule a WER contra o texto original. Avaliado em 30 frases conversacionais integradas em ingles.

Engine	Modelo	Parametros	Tamanho	WER%	RTF
CosyVoice3	0.5B 4-bit	500M	~1.9 GB	3.25	0.59
Qwen3-TTS	1.7B 4-bit	1.7B	~2.3 GB	3.47	0.79
Qwen3-TTS	1.7B 8-bit	1.7B	~3.5 GB	3.66	0.85
Kokoro-82M	CoreML	82M	~170 MB	3.90	0.17
Qwen3-TTS	0.6B 8-bit	600M	~960 MB	9.74	0.76
Qwen3-TTS	0.6B 4-bit	600M	~675 MB	15.58	0.76

Breakdown de latencia (Qwen3-TTS)

Estagio	Tempo	% do total	Descricao
Embed	1-3 ms	<1%	Embedding de texto (TTFT)
Generate	2-6 s	~92%	Tokens de codec autoregressivos
Decode	244-457 ms	~8%	Decodificador de codec para waveform

Principal conclusao

Todos os engines TTS rodam mais rapido que tempo real (RTF < 1.0). CosyVoice3 lidera em inteligibilidade (3.25% WER). Kokoro e o mais rapido (RTF 0.17) com apenas 170 MB.

VAD — Precisao de deteccao

Avaliacao FLEURS (10 idiomas, 250 arquivos)

Avaliado contra o ground truth de referencia do Python FireRedVAD no mesmo limiar.

Engine	Parametros	Backend	F1%	FAR%	MR%	RTF
FireRedVAD	588K	CoreML (ANE)	99.12	2.52	0.47	0.007
Silero v5	309K	CoreML (ANE)	95.13	15.76	1.89	0.022
Silero v5	309K	MLX (GPU)	95.11	15.85	1.89	0.027
Pyannote	1.5M	MLX (GPU)	94.86	14.71	2.92	0.358

Avaliacao VoxConverse (multi-locutor)

5 arquivos de conversa multi-locutor avaliados em resolucao de frame de 10 ms.

Engine	Parametros	Backend	F1%	FAR%	MR%	RTF
Pyannote	1.5M	MLX (GPU)	98.22	50.09	0.19	0.358
Silero v5	309K	CoreML (ANE)	97.52	33.29	2.69	0.022
Silero v5	309K	MLX (GPU)	95.98	21.02	5.88	0.027
FireRedVAD	588K	CoreML (ANE)	94.21	40.12	5.05	0.007

Comparacao com numeros publicados

Modelo	F1%	FAR%	MR%	Parametros	Dataset
Pyannote (nossos)	98.22	50.09	0.19	1.5M	VoxConverse
FireRedVAD (paper)	97.57	2.69	3.62	588K	FLEURS-VAD-102
Silero (nossos)	95.98	21.02	5.88	309K	VoxConverse
Silero-VAD (paper)	95.95	9.41	3.95	309K	FLEURS-VAD-102
FireRedVAD (nossos)	94.21	69.33	5.05	588K	VoxConverse

Principal conclusao

FireRedVAD atinge 99.12% F1 no FLEURS com a menor taxa de falso alarme (2.52%) e roda a 135x tempo real. Silero v5 oferece a melhor opcao de streaming com 32 ms por chunk.

Embeddings de falante

Latencia de extracao

Clipe de audio de 20 segundos, 10 iteracoes apos warmup.

Modelo	Dim	Backend	Latencia
CAM++ (3D-Speaker)	192	CoreML (ANE)	12 ms
WeSpeaker ResNet34-LM	256	MLX (GPU)	64 ms
WeSpeaker ResNet34-LM	256	CoreML (ANE)	143 ms

Qualidade de embedding (VoxConverse)

Similaridade de cosseno entre embeddings de nivel de segmento em 5 gravacoes multi-locutor. Maior separacao = melhor discriminacao de falante.

Modelo	Backend	Intra-locutor	Inter-locutor	Separacao
WeSpeaker	MLX	0.726	0.142	0.584
WeSpeaker	CoreML	0.726	0.143	0.582
CAM++	CoreML	0.723	0.395	0.328

Principal conclusao

Os tres engines correspondem a referencia Python pyannote (separacao de 0.577, similaridade de cosseno >0.96). WeSpeaker atinge 0.584 de separacao em MLX e CoreML. CAM++ roda 5x mais rapido (12 ms vs 65 ms) com boa separacao (0.328).

Separacao de fontes — SDR

Relacao sinal-distorcao (SDR) no MUSDB18-HQ (50 faixas de teste completas, estereo 44.1 kHz). Maior e melhor. Dois tamanhos de modelo: HQ (8.9M params/stem) e L (28.3M params/stem).

Alvo	UMX-HQ (MLX)	UMX-L (MLX)	UMX-HQ (publicado)
Vocal	6.23 dB	~10.5 dB	6.32 dB
Bateria	6.44 dB	~7.0 dB	5.73 dB
Baixo	4.56 dB	~5.5 dB	5.23 dB
Outros	3.41 dB	~4.5 dB	4.02 dB

Modelo	Params/stem	Tamanho	RTF	Velocidade
Open-Unmix HQ	8.9M	136 MB	0.23	4.3x tempo real
Open-Unmix L	28.3M	432 MB	0.21	4.8x tempo real

Principal conclusao

UMX-HQ iguala o SDR publicado em vocal e bateria com um modelo leve de 8.9M. UMX-L fornece melhoria de +2–4 dB com 3x o tamanho do modelo. Ambos incluem pos-filtragem multichannel Wiener EM e rodam mais rapido que tempo real em Apple Silicon.

Reproducao

# ASR benchmarks (LibriSpeech test-clean)
make build
python scripts/benchmark_asr.py --batch --engine qwen3 --model 0.6B
python scripts/benchmark_asr.py --batch --engine qwen3 --model 0.6B-8bit
python scripts/benchmark_asr.py --batch --engine parakeet
python scripts/benchmark_asr.py --batch --engine parakeet --model int8

# ASR multilingual (FLEURS, auto-download)
python scripts/benchmark_asr.py --dataset fleurs --language en_us --batch

# TTS round-trip
python scripts/benchmark_tts.py --compare

# VAD comparison
python scripts/benchmark_vad.py --compare

# Speaker embeddings comparison
python scripts/benchmark_speaker.py --compare

# Source separation (MUSDB18-HQ, download from Zenodo)
python scripts/benchmark_separation.py --data-dir benchmarks/data/musdb18-hq