アーキテクチャ
speech-swiftは、共有プロトコル、独立したモデルモジュール、統一されたCLIを備えたモジュール化されたSwiftパッケージとして構成されています。すべての推論はMLX(Metal GPU)またはCoreML(Neural Engine)を使用してオンデバイスで実行されます。
モジュール依存関係グラフ
┌──────────┐
│ AudioCLI │ (エントリポイント)
└────┬─────┘
│
┌──────┴──────┐
│ AudioCLILib │ (コマンド)
└──────┬──────┘
│
┌─────────┬───────┼───────┬──────────┬──────────────┐
│ │ │ │ │ │
┌────┴───┐ ┌──┴──┐ ┌──┴──┐ ┌─┴────┐ ┌───┴────┐ ┌──────┴───────┐
│Qwen3ASR│ │Qwen3│ │Cosy │ │Perso-│ │Speech- │ │ Speech- │
│Parakeet│ │ TTS │ │Voice│ │naPlex│ │ VAD │ │Enhancement │
└────┬───┘ └──┬──┘ └──┬──┘ └──┬───┘ └───┬───┘ └──────┬───────┘
│ │ │ │ │ │
└────────┴───────┼───────┴─────────┘ │
│ │
┌──────┴──────┐ │
│ Qwen3Common │ (共有レイヤー) │
└──────┬──────┘ │
│ │
┌──────┴──────┐ │
│ AudioCommon │ ◄──────────────────────┘
└─────────────┘ (プロトコル、音声I/O)推論バックエンド
| バックエンド | ハードウェア | モデル |
|---|---|---|
| MLX | Metal GPU | Qwen3-ASR、Qwen3-TTS、CosyVoice3、Qwen3.5-Chat、PersonaPlex、Omnilingual ASR (300M / 1B / 3B / 7B)、Pyannote、Silero VAD、WeSpeaker |
| CoreML | Neural Engine | Qwen3-ASRエンコーダー(ハイブリッド)、Parakeet TDT、Parakeet EOUストリーミング、Omnilingual ASR 300M、Kokoro-82M、Qwen3.5-Chat(オプション)、Sortformerダイアライゼーション、DeepFilterNet3、Silero VAD(オプション)、WeSpeaker(オプション) |
| Accelerate | CPU (SIMD) | 音声前処理(STFT、mel、FFT)、信号処理 |
モデルウェイト形式
MLXモデルは4ビットまたは8ビット量子化(グループサイズ64)のsafetensors形式を使用します。CoreMLモデルは.mlmodelcコンパイル済み形式を使用します。scripts/内の変換スクリプトがPyTorchチェックポイントから変換します。
| モデル | パラメーター | 量子化 | ディスク上のサイズ |
|---|---|---|---|
| Qwen3-ASR 0.6B (MLX) | 約600M | 4ビット / 8ビット | 680 MB / 1.0 GB |
| Qwen3-ASR 0.6B (CoreML) | 約186M(エンコーダー) | INT8 | 約180 MB |
| Qwen3-ASR 1.7B (MLX) | 約1.7B | 4ビット / 8ビット | 2.1 GB / 3.2 GB |
| Parakeet-TDT 0.6B (CoreML) | 約600M | INT8 | 500 MB |
| Parakeet-EOU 120M (CoreML) | 約120M | INT8 | 約120 MB |
| Omnilingual-ASR-CTC 300M (CoreML) | 326M | INT8 | 312 MB |
| Omnilingual-ASR-CTC 300M (MLX) | 326M | 4ビット / 8ビット | 193 MB / 342 MB |
| Omnilingual-ASR-CTC 1B (MLX) | 1.01B | 4ビット / 8ビット | 549 MB / 1006 MB |
| Omnilingual-ASR-CTC 3B (MLX) | 約3B | 4ビット / 8ビット | 1.71 GB / 3.16 GB |
| Omnilingual-ASR-CTC 7B (MLX) | 約7B | 4ビット / 8ビット | 3.55 GB / 6.63 GB |
| Qwen3-ForcedAligner 0.6B (MLX) | 約600M | 4ビット / 8ビット | 979 MB / 1.4 GB |
| Qwen3-ForcedAligner 0.6B (CoreML) | 約600M | INT4 / INT8 | 630 MB / 1.0 GB |
| Qwen3-TTS 0.6B (MLX) | 約600M | 4ビット / 8ビット | 1.7 GB / 2.4 GB |
| Qwen3-TTS 1.7B (MLX) | 約1.7B | 4ビット / 8ビット | 3.2 GB / 4.8 GB |
| CosyVoice3 0.5B (MLX) | 約500M | 4ビットLLM | 約1.2 GB |
| Kokoro-82M (CoreML) | 82M | INT8(1バケット) | 約89 MB |
| Qwen3.5-Chat 0.8B (MLX) | 約800M | INT4 | 418 MB |
| Qwen3.5-Chat 0.8B (CoreML) | 約800M | INT8 | 981 MB |
| PersonaPlex 7B (MLX) | 約7B | 4ビット / 8ビット | 4.9 GB / 9.1 GB |
| Pyannote VAD (MLX) | 約1.49M | float32 | 約5.7 MB |
| Silero VAD v5 | 約309K | float32 | 約1.2 MB (MLX & CoreML) |
| WeSpeaker ResNet34 | 約6.6M | float32 | 約25 MB (MLX & CoreML) |
| Sortformer (CoreML) | — | float16 | 約50 MB |
| DeepFilterNet3 (CoreML) | 約2.1M | FP16 | 約4.2 MB |
パフォーマンス最適化
- MLX compile() — 自己回帰ループでのカーネル融合。Talkerは
compile(shapeless: true)、Code Predictorは固定キャッシュサイズのcompile(shapeless: false)を使用します。 - Metalシェーダーライブラリ — プリコンパイルされたmetallibにより、約5倍のJITコンパイルオーバーヘッドを回避します。
scripts/build_mlx_metallib.shでビルドします。 - チャンク化コーデックデコード — TTSデコーダーは、GPUタイムアウトを回避するために、10フレームのコンテキストオーバーラップで25フレームのチャンクで音声を処理します。
- バッチ倍増CFG — CosyVoice3 DiTは、条件付きと非条件付きを一緒にバッチ化することで、フローマッチングのパス数を半減します。
- 融合RoPE — 手動回転の代わりに、Metalカーネルに支えられた
MLXNN.RoPEを使用します。 - BN融合 — WeSpeakerのバッチ正規化は、変換時にConv2dの重みに融合されます。
音声処理
すべての音声I/OはFloat32 PCMを使用します。内部リサンプリングによって形式変換が処理されます。
| モデル | 想定サンプリングレート | 形式 |
|---|---|---|
| Qwen3-ASR | 16 kHz | モノラル Float32 |
| Qwen3-TTS | 24 kHz出力 | モノラル Float32 |
| CosyVoice3 | 24 kHz出力 | モノラル Float32 |
| Kokoro-82M | 24 kHz出力 | モノラル Float32 |
| PersonaPlex | 24 kHz I/O | モノラル Float32 |
| Pyannote VAD | 16 kHz | モノラル Float32 |
| Silero VAD | 16 kHz | モノラル Float32 |
| WeSpeaker | 16 kHz | モノラル Float32 |
| DeepFilterNet3 | 48 kHz | モノラル Float32 |
ソース構造
Sources/
AudioCommon/ 共有プロトコル、音声I/O、HuggingFaceダウンローダー、
SentencePieceModel(protobufリーダー)
MLXCommon/ MLXユーティリティ:ウェイトローディング、QuantizedLinearヘルパー、
SDPAマルチヘッドアテンションヘルパー、metalバジェット
Qwen3Common/ 共有モデルコンポーネント(KVキャッシュ、RoPE、量子化)
Qwen3ASR/ Qwen3-ASR 音声認識
ParakeetASR/ Parakeet TDT 音声認識 (CoreML)
ParakeetStreamingASR/ Parakeet EOU 120M ストリーミングディクテーション (CoreML)
OmnilingualASR/ Meta wav2vec2 + CTC、1,672言語
(CoreML 300M + MLX 300M / 1B / 3B / 7B)
Qwen3TTS/ Qwen3-TTS 音声合成
CosyVoiceTTS/ CosyVoice3 音声合成
KokoroTTS/ Kokoro-82M 音声合成 (CoreML)
Qwen3Chat/ Qwen3.5-0.8B オンデバイスLLMチャット (MLX + CoreML)
PersonaPlex/ PersonaPlex 音声間変換
SpeechVAD/ VAD (Silero + Pyannote)、ダイアライゼーション、話者embedding
SpeechEnhancement/ DeepFilterNet3 ノイズ抑制 (CoreML)
AudioCLILib/ CLIコマンド実装
AudioCLI/ CLIエントリポイント
scripts/ モデル変換 (PyTorch → MLX/CoreML)、ベンチマーク
Tests/ ユニットと統合テスト
Examples/ デモアプリ (PersonaPlexDemo, SpeechDemo)