Benchmarks

Ein RTF (Echtzeitfaktor) unter 1,0 bedeutet schneller als Echtzeit.

Apple Silicon (MLX + CoreML)

Alle Benchmarks auf M2 Max, 64 GB, macOS 14 mit Release-Builds und kompilierter metallib.

ASR — Wortfehlerrate

Ausgewertet auf LibriSpeech test-clean (2620 Äußerungen, ~5,4 Stunden englischer Lesesprache).

ModellBitsGrößeWER%RTF
Qwen3-ASR 1.7B8-Bit2,3 GB2,350,090
Qwen3-ASR 1.7B4-Bit1,2 GB2,570,045
Parakeet TDT 0.6BINT8634 MB2,740,089
Qwen3-ASR 0.6B8-Bit960 MB2,800,025
Qwen3-ASR 0.6B4-Bit675 MB3,340,023

Vergleich mit veröffentlichten Modellen

ModellParameterGrößePräzisionWER%Quelle
Qwen3-ASR 1.7B1,7B2,3 GB8-Bit2,35Dieser Benchmark
Whisper Large v3 Turbo809M1,6 GBFP162,5OpenAI (2024)
Qwen3-ASR 1.7B1,7B1,2 GB4-Bit2,57Dieser Benchmark
Whisper Large v31,5B3,1 GBFP162,7OpenAI (2023)
Parakeet TDT 0.6B600M634 MBINT82,74Dieser Benchmark
Qwen3-ASR 0.6B600M960 MB8-Bit2,80Dieser Benchmark
Whisper Medium769M1,5 GBFP163,0OpenAI (2022)
Qwen3-ASR 0.6B600M675 MB4-Bit3,34Dieser Benchmark
Whisper Small244M483 MBFP163,4OpenAI (2022)

Langzeitstabilität (anhaltende Neural-Engine-Last)

200 LibriSpeech-Äußerungen sequenziell verarbeitet (~30 min Audio, M2 Max). Testet, ob WER oder Latenz unter dauerhafter Transkription nachlassen.

MetrikErste 25%Letzte 25%Gesamt
WER%1,301,232,43
RTF0,6720,4000,539

Keine Verschlechterung festgestellt. Die WER bleibt über die gesamte Sitzung stabil. Der RTF verbessert sich sogar, während CoreML seinen Execution-Plan-Cache aufwärmt. Kein Thermal Throttling nach 42 Minuten kontinuierlicher Neural-Engine-Inferenz. Parakeet verarbeitet jeden Chunk unabhängig — keine Zustandsakkumulation über Chunks hinweg.

Mehrsprachige Ergebnisse (FLEURS)

Für CJK-Sprachen wird die CER verwendet (keine Wortgrenzen). Parakeet unterstützt ~25 europäische Sprachen (kein CJK).

SpracheMetrikQwen3 4-BitQwen3 8-BitParakeet INT8
SpanischWER6,445,065,18
EnglischWER6,575,649,30
ChinesischCER8,417,71
DeutschWER9,456,8112,33
FranzösischWER11,428,5013,02
JapanischCER16,118,64
RussischWER16,3510,5211,49
KoreanischWER19,956,89
HindiWER25,9318,57
ArabischWER33,4720,31

Kompressions-Delta

Genauigkeitsverlust durch Quantisierung auf geringere Bitbreiten.

VarianteWER%SubstitutionenEinfügungenLöschungenGesamtfehlerGröße
Qwen3 0.6B 8-Bit2,801111922681471960 MB
Qwen3 0.6B 4-Bit3,3413231233081754675 MB
Delta+0,54+212+31+40+283-30%
Parakeet TDT INT82,749901253081423634 MB
Wichtigste Erkenntnis

Qwen3-ASR 1.7B 8-Bit erreicht 2,35 % WER — übertrifft Whisper Large v3 Turbo (2,5 %) und Whisper Large v3 (2,7 %) und läuft dabei mit 11-facher Echtzeit auf Apple Silicon.

TTS — Round-Trip-Verständlichkeit

Text synthetisieren, dann das Audio mit Qwen3-ASR 0.6B zurück transkribieren und die WER gegenüber dem Originaltext berechnen. Ausgewertet auf 30 eingebauten englischen Konversationssätzen.

EngineModellParameterGrößeWER%RTF
CosyVoice30.5B 4-Bit500M~1,9 GB3,250,59
Qwen3-TTS1.7B 4-Bit1,7B~2,3 GB3,470,79
Qwen3-TTS1.7B 8-Bit1,7B~3,5 GB3,660,85
Kokoro-82MCoreML82M~170 MB3,900,17
Qwen3-TTS0.6B 8-Bit600M~960 MB9,740,76
Qwen3-TTS0.6B 4-Bit600M~675 MB15,580,76

Latenzaufschlüsselung (Qwen3-TTS)

StufeZeit% gesamtBeschreibung
Embed1–3 ms<1%Text-Embedding (TTFT)
Generate2–6 s~92%Autoregressive Codec-Tokens
Decode244–457 ms~8%Codec-Decoder zur Wellenform
Wichtigste Erkenntnis

Alle TTS-Engines laufen schneller als Echtzeit (RTF < 1,0). CosyVoice3 führt bei der Verständlichkeit (3,25 % WER). Kokoro ist am schnellsten (RTF 0,17) bei nur 170 MB.

VAD — Erkennungsgenauigkeit

FLEURS-Auswertung (10 Sprachen, 250 Dateien)

Ausgewertet gegen die Referenz-Ground-Truth des Python-FireRedVAD bei gleichem Schwellenwert.

EngineParameterBackendF1%FAR%MR%RTF
FireRedVAD588KCoreML (ANE)99,122,520,470,007
Silero v5309KCoreML (ANE)95,1315,761,890,022
Silero v5309KMLX (GPU)95,1115,851,890,027
Pyannote1,5MMLX (GPU)94,8614,712,920,358

VoxConverse-Auswertung (mehrere Sprecher)

5 Mehrsprecher-Konversationsdateien ausgewertet bei 10 ms Frame-Auflösung.

EngineParameterBackendF1%FAR%MR%RTF
Pyannote1,5MMLX (GPU)98,2250,090,190,358
Silero v5309KCoreML (ANE)97,5233,292,690,022
Silero v5309KMLX (GPU)95,9821,025,880,027
FireRedVAD588KCoreML (ANE)94,2140,125,050,007

Vergleich mit veröffentlichten Zahlen

ModellF1%FAR%MR%ParameterDatensatz
Pyannote (unsere)98,2250,090,191,5MVoxConverse
FireRedVAD (Paper)97,572,693,62588KFLEURS-VAD-102
Silero (unsere)95,9821,025,88309KVoxConverse
Silero-VAD (Paper)95,959,413,95309KFLEURS-VAD-102
FireRedVAD (unsere)94,2169,335,05588KVoxConverse
Wichtigste Erkenntnis

FireRedVAD erreicht 99,12 % F1 auf FLEURS mit der niedrigsten Fehlalarmrate (2,52 %) und läuft mit 135-facher Echtzeit. Silero v5 bietet die beste Streaming-Option mit 32 ms pro Chunk.

Sprechereinbettungen

Extraktionslatenz

20-Sekunden-Audioclip, 10 Iterationen nach Aufwärmen.

ModellDimBackendLatenz
CAM++ (3D-Speaker)192CoreML (ANE)12 ms
WeSpeaker ResNet34-LM256MLX (GPU)64 ms
WeSpeaker ResNet34-LM256CoreML (ANE)143 ms

Embedding-Qualität (VoxConverse)

Kosinusähnlichkeit zwischen segmentebenen Embeddings aus 5 Mehrsprecheraufnahmen. Höhere Trennung = bessere Sprecherunterscheidung.

ModellBackendIntra-SprecherInter-SprecherTrennung
WeSpeakerMLX0,7260,1420,584
WeSpeakerCoreML0,7260,1430,582
CAM++CoreML0,7230,3950,328
Wichtigste Erkenntnis

Alle drei Engines erreichen die Python-pyannote-Referenz (0,577 Trennung, Kosinusähnlichkeit >0,96). WeSpeaker erzielt 0,584 Trennung auf MLX und CoreML. CAM++ läuft 5x schneller (12 ms vs. 65 ms) bei guter Trennung (0,328).

Quellentrennung — SDR

Signal-to-Distortion Ratio (SDR) auf MUSDB18-HQ (50 Tracks in voller Länge im Test, Stereo 44,1 kHz). Höher ist besser. Zwei Modellgrößen: HQ (8,9M Parameter/Stem) und L (28,3M Parameter/Stem).

ZielUMX-HQ (MLX)UMX-L (MLX)UMX-HQ (veröffentlicht)
Vocals6,23 dB~10,5 dB6,32 dB
Drums6,44 dB~7,0 dB5,73 dB
Bass4,56 dB~5,5 dB5,23 dB
Other3,41 dB~4,5 dB4,02 dB
ModellParameter/StemGrößeRTFGeschwindigkeit
Open-Unmix HQ8,9M136 MB0,234,3-fache Echtzeit
Open-Unmix L28,3M432 MB0,214,8-fache Echtzeit
Wichtigste Erkenntnis

UMX-HQ erreicht die veröffentlichten SDR-Werte für Vocals und Drums mit einem leichtgewichtigen 8,9M-Modell. UMX-L liefert +2–4 dB Verbesserung bei dreifacher Modellgröße. Beide enthalten mehrkanalige Wiener-EM-Nachfilterung und laufen schneller als Echtzeit auf Apple Silicon.

Reproduktion

# ASR-Benchmarks (LibriSpeech test-clean)
make build
python scripts/benchmark_asr.py --batch --engine qwen3 --model 0.6B
python scripts/benchmark_asr.py --batch --engine qwen3 --model 0.6B-8bit
python scripts/benchmark_asr.py --batch --engine parakeet
python scripts/benchmark_asr.py --batch --engine parakeet --model int8

# ASR mehrsprachig (FLEURS, automatischer Download)
python scripts/benchmark_asr.py --dataset fleurs --language en_us --batch

# TTS Round-Trip
python scripts/benchmark_tts.py --compare

# VAD-Vergleich
python scripts/benchmark_vad.py --compare

# Sprechereinbettungs-Vergleich
python scripts/benchmark_speaker.py --compare

# Quellentrennung (MUSDB18-HQ, Download von Zenodo)
python scripts/benchmark_separation.py --data-dir benchmarks/data/musdb18-hq