Benchmarks

RTF(リアルタイム係数)が1.0未満の場合、リアルタイムより高速であることを意味します。

Apple Silicon (MLX + CoreML)

すべてのベンチマークはM2 Max、64 GB、macOS 14上で、リリースビルドとコンパイル済みmetallibを使用しています。

ASR — 単語誤り率

LibriSpeech test-clean(2620発話、英語の朗読音声約5.4時間)で評価。

モデルビット数サイズWER%RTF
Qwen3-ASR 1.7B8ビット2.3 GB2.350.090
Qwen3-ASR 1.7B4ビット1.2 GB2.570.045
Parakeet TDT 0.6BINT8634 MB2.740.089
Qwen3-ASR 0.6B8ビット960 MB2.800.025
Qwen3-ASR 0.6B4ビット675 MB3.340.023

公開モデルとの比較

モデルパラメーターサイズ精度WER%出典
Qwen3-ASR 1.7B1.7B2.3 GB8ビット2.35本ベンチマーク
Whisper Large v3 Turbo809M1.6 GBFP162.5OpenAI (2024)
Qwen3-ASR 1.7B1.7B1.2 GB4ビット2.57本ベンチマーク
Whisper Large v31.5B3.1 GBFP162.7OpenAI (2023)
Parakeet TDT 0.6B600M634 MBINT82.74本ベンチマーク
Qwen3-ASR 0.6B600M960 MB8ビット2.80本ベンチマーク
Whisper Medium769M1.5 GBFP163.0OpenAI (2022)
Qwen3-ASR 0.6B600M675 MB4ビット3.34本ベンチマーク
Whisper Small244M483 MBFP163.4OpenAI (2022)

長尺安定性(持続的なNeural Engine負荷)

200件のLibriSpeech発話を順次処理(音声約30分、M2 Max)。持続的な文字起こし下でWERやレイテンシーが劣化するかをテストします。

指標最初の25%最後の25%全体
WER%1.301.232.43
RTF0.6720.4000.539

劣化は検出されませんでした。セッション全体でWERは安定しています。CoreMLが実行計画キャッシュをウォームアップするにつれ、RTFは実際に向上します。42分間の連続Neural Engine推論後もサーマルスロットリングは発生しません。Parakeetは各チャンクを独立して処理するため、チャンク間の状態蓄積はありません。

多言語結果(FLEURS)

CJK言語(単語境界なし)にはCERを使用。Parakeetは約25の欧州言語をサポート(CJKは非対応)。

言語指標Qwen3 4ビットQwen3 8ビットParakeet INT8
スペイン語WER6.445.065.18
英語WER6.575.649.30
中国語CER8.417.71
ドイツ語WER9.456.8112.33
フランス語WER11.428.5013.02
日本語CER16.118.64
ロシア語WER16.3510.5211.49
韓国語WER19.956.89
ヒンディー語WER25.9318.57
アラビア語WER33.4720.31

圧縮デルタ

より低ビット幅への量子化による精度の損失。

バリアントWER%置換挿入削除合計エラーサイズ
Qwen3 0.6B 8ビット2.801111922681471960 MB
Qwen3 0.6B 4ビット3.3413231233081754675 MB
デルタ+0.54+212+31+40+283-30%
Parakeet TDT INT82.749901253081423634 MB
重要なポイント

Qwen3-ASR 1.7B 8ビットは2.35% WERを達成し、Whisper Large v3 Turbo(2.5%)およびWhisper Large v3(2.7%)を上回りながら、Apple Silicon上で11倍のリアルタイム速度で動作します。

TTS — ラウンドトリップ明瞭度

テキストを合成し、その音声をQwen3-ASR 0.6Bで文字起こしし、元のテキストに対するWERを計算します。30件の組み込み英語会話文で評価。

エンジンモデルパラメーターサイズWER%RTF
CosyVoice30.5B 4ビット500M約1.9 GB3.250.59
Qwen3-TTS1.7B 4ビット1.7B約2.3 GB3.470.79
Qwen3-TTS1.7B 8ビット1.7B約3.5 GB3.660.85
Kokoro-82MCoreML82M約170 MB3.900.17
Qwen3-TTS0.6B 8ビット600M約960 MB9.740.76
Qwen3-TTS0.6B 4ビット600M約675 MB15.580.76

レイテンシー内訳 (Qwen3-TTS)

ステージ時間全体に占める割合説明
Embed1-3 ms<1%テキスト埋め込み (TTFT)
Generate2-6 秒約92%自己回帰コーデックトークン
Decode244-457 ms約8%コーデックデコーダーから波形へ
重要なポイント

すべてのTTSエンジンはリアルタイムより高速に動作します(RTF < 1.0)。CosyVoice3は明瞭度でリード(3.25% WER)。Kokoroはわずか170 MBで最速(RTF 0.17)です。

VAD — 検出精度

FLEURS評価(10言語、250ファイル)

同じしきい値でPython FireRedVADリファレンスのグラウンドトゥルースと比較評価。

エンジンパラメーターバックエンドF1%FAR%MR%RTF
FireRedVAD588KCoreML (ANE)99.122.520.470.007
Silero v5309KCoreML (ANE)95.1315.761.890.022
Silero v5309KMLX (GPU)95.1115.851.890.027
Pyannote1.5MMLX (GPU)94.8614.712.920.358

VoxConverse評価(複数話者)

5件の複数話者会話ファイルを10 msフレーム分解能で評価。

エンジンパラメーターバックエンドF1%FAR%MR%RTF
Pyannote1.5MMLX (GPU)98.2250.090.190.358
Silero v5309KCoreML (ANE)97.5233.292.690.022
Silero v5309KMLX (GPU)95.9821.025.880.027
FireRedVAD588KCoreML (ANE)94.2140.125.050.007

公開数値との比較

モデルF1%FAR%MR%パラメーターデータセット
Pyannote (本実装)98.2250.090.191.5MVoxConverse
FireRedVAD (論文)97.572.693.62588KFLEURS-VAD-102
Silero (本実装)95.9821.025.88309KVoxConverse
Silero-VAD (論文)95.959.413.95309KFLEURS-VAD-102
FireRedVAD (本実装)94.2169.335.05588KVoxConverse
重要なポイント

FireRedVADはFLEURSで99.12% F1を達成し、最低の誤報率(2.52%)で動作し、135倍のリアルタイム速度で実行されます。Silero v5はチャンクあたり32 msで最高のストリーミングオプションを提供します。

話者embedding

抽出レイテンシー

20秒の音声クリップ、ウォームアップ後10回反復。

モデル次元バックエンドレイテンシー
CAM++ (3D-Speaker)192CoreML (ANE)12 ms
WeSpeaker ResNet34-LM256MLX (GPU)64 ms
WeSpeaker ResNet34-LM256CoreML (ANE)143 ms

埋め込み品質 (VoxConverse)

5件の複数話者録音からのセグメントレベルembedding間のコサイン類似度。分離が大きいほど話者識別が優れます。

モデルバックエンド同一話者内話者間分離
WeSpeakerMLX0.7260.1420.584
WeSpeakerCoreML0.7260.1430.582
CAM++CoreML0.7230.3950.328
重要なポイント

3つのエンジンすべてがPython pyannoteリファレンス(0.577分離、コサイン類似度 >0.96)と一致します。WeSpeakerはMLXとCoreMLの両方で0.584の分離を達成します。CAM++は5倍高速(12 ms対65 ms)で動作し、良好な分離(0.328)を示します。

音源分離 — SDR

MUSDB18-HQ(50件のフルレングステストトラック、ステレオ 44.1kHz)での信号対歪み比(SDR)。高いほど良好です。2つのモデルサイズ:HQ(ステムあたり8.9Mパラメーター)とL(ステムあたり28.3Mパラメーター)。

ターゲットUMX-HQ (MLX)UMX-L (MLX)UMX-HQ (公開値)
ボーカル6.23 dB約10.5 dB6.32 dB
ドラム6.44 dB約7.0 dB5.73 dB
ベース4.56 dB約5.5 dB5.23 dB
その他3.41 dB約4.5 dB4.02 dB
モデルステムあたりパラメーターサイズRTF速度
Open-Unmix HQ8.9M136 MB0.234.3倍リアルタイム
Open-Unmix L28.3M432 MB0.214.8倍リアルタイム
重要なポイント

UMX-HQは軽量な8.9Mモデルでボーカルとドラムの公開SDRと一致します。UMX-Lはモデルサイズの3倍で+2〜4 dBの改善を提供します。どちらも多チャネルWiener EMポストフィルタリングを含み、Apple Silicon上でリアルタイムより高速に動作します。

再現

# ASRベンチマーク (LibriSpeech test-clean)
make build
python scripts/benchmark_asr.py --batch --engine qwen3 --model 0.6B
python scripts/benchmark_asr.py --batch --engine qwen3 --model 0.6B-8bit
python scripts/benchmark_asr.py --batch --engine parakeet
python scripts/benchmark_asr.py --batch --engine parakeet --model int8

# ASR多言語 (FLEURS、自動ダウンロード)
python scripts/benchmark_asr.py --dataset fleurs --language en_us --batch

# TTS ラウンドトリップ
python scripts/benchmark_tts.py --compare

# VAD 比較
python scripts/benchmark_vad.py --compare

# 話者embedding 比較
python scripts/benchmark_speaker.py --compare

# 音源分離 (MUSDB18-HQ、Zenodoからダウンロード)
python scripts/benchmark_separation.py --data-dir benchmarks/data/musdb18-hq