アーキテクチャ

speech-swiftは、共有プロトコル、独立したモデルモジュール、統一されたCLIを備えたモジュール化されたSwiftパッケージとして構成されています。すべての推論はMLX（Metal GPU）またはCoreML（Neural Engine）を使用してオンデバイスで実行されます。

モジュール依存関係グラフ

                    ┌──────────┐
                    │ AudioCLI │  (エントリポイント)
                    └────┬─────┘
                         │
                  ┌──────┴──────┐
                  │ AudioCLILib │  (コマンド)
                  └──────┬──────┘
                         │
       ┌─────────┬───────┼───────┬──────────┬──────────────┐
       │         │       │       │          │              │
  ┌────┴───┐ ┌──┴──┐ ┌──┴──┐ ┌─┴────┐ ┌───┴────┐ ┌──────┴───────┐
  │Qwen3ASR│ │Qwen3│ │Cosy │ │Perso-│ │Speech- │ │  Speech-     │
  │Parakeet│ │ TTS │ │Voice│ │naPlex│ │  VAD   │ │Enhancement   │
  └────┬───┘ └──┬──┘ └──┬──┘ └──┬───┘ └───┬───┘ └──────┬───────┘
       │        │       │       │         │             │
       └────────┴───────┼───────┴─────────┘             │
                        │                               │
                 ┌──────┴──────┐                        │
                 │ Qwen3Common │  (共有レイヤー)        │
                 └──────┬──────┘                        │
                        │                               │
                 ┌──────┴──────┐                        │
                 │ AudioCommon │ ◄──────────────────────┘
                 └─────────────┘  (プロトコル、音声I/O)

推論バックエンド

バックエンド	ハードウェア	モデル
MLX	Metal GPU	Qwen3-ASR、Qwen3-TTS、CosyVoice3、Qwen3.5-Chat、PersonaPlex、Omnilingual ASR (300M / 1B / 3B / 7B)、Pyannote、Silero VAD、WeSpeaker
CoreML	Neural Engine	Qwen3-ASRエンコーダー（ハイブリッド）、Parakeet TDT、Parakeet EOUストリーミング、Omnilingual ASR 300M、Kokoro-82M、Qwen3.5-Chat（オプション）、Sortformerダイアライゼーション、DeepFilterNet3、Silero VAD（オプション）、WeSpeaker（オプション）
Accelerate	CPU (SIMD)	音声前処理（STFT、mel、FFT）、信号処理

モデルウェイト形式

MLXモデルは4ビットまたは8ビット量子化（グループサイズ64）のsafetensors形式を使用します。CoreMLモデルは.mlmodelcコンパイル済み形式を使用します。scripts/内の変換スクリプトがPyTorchチェックポイントから変換します。

モデル	パラメーター	量子化	ディスク上のサイズ
Qwen3-ASR 0.6B (MLX)	約600M	4ビット / 8ビット	680 MB / 1.0 GB
Qwen3-ASR 0.6B (CoreML)	約186M（エンコーダー）	INT8	約180 MB
Qwen3-ASR 1.7B (MLX)	約1.7B	4ビット / 8ビット	2.1 GB / 3.2 GB
Parakeet-TDT 0.6B (CoreML)	約600M	INT8	500 MB
Parakeet-EOU 120M (CoreML)	約120M	INT8	約120 MB
Omnilingual-ASR-CTC 300M (CoreML)	326M	INT8	312 MB
Omnilingual-ASR-CTC 300M (MLX)	326M	4ビット / 8ビット	193 MB / 342 MB
Omnilingual-ASR-CTC 1B (MLX)	1.01B	4ビット / 8ビット	549 MB / 1006 MB
Omnilingual-ASR-CTC 3B (MLX)	約3B	4ビット / 8ビット	1.71 GB / 3.16 GB
Omnilingual-ASR-CTC 7B (MLX)	約7B	4ビット / 8ビット	3.55 GB / 6.63 GB
Qwen3-ForcedAligner 0.6B (MLX)	約600M	4ビット / 8ビット	979 MB / 1.4 GB
Qwen3-ForcedAligner 0.6B (CoreML)	約600M	INT4 / INT8	630 MB / 1.0 GB
Qwen3-TTS 0.6B (MLX)	約600M	4ビット / 8ビット	1.7 GB / 2.4 GB
Qwen3-TTS 1.7B (MLX)	約1.7B	4ビット / 8ビット	3.2 GB / 4.8 GB
CosyVoice3 0.5B (MLX)	約500M	4ビットLLM	約1.2 GB
Kokoro-82M (CoreML)	82M	INT8（1バケット）	約89 MB
Qwen3.5-Chat 0.8B (MLX)	約800M	INT4	418 MB
Qwen3.5-Chat 0.8B (CoreML)	約800M	INT8	981 MB
PersonaPlex 7B (MLX)	約7B	4ビット / 8ビット	4.9 GB / 9.1 GB
Pyannote VAD (MLX)	約1.49M	float32	約5.7 MB
Silero VAD v5	約309K	float32	約1.2 MB (MLX & CoreML)
WeSpeaker ResNet34	約6.6M	float32	約25 MB (MLX & CoreML)
Sortformer (CoreML)	—	float16	約50 MB
DeepFilterNet3 (CoreML)	約2.1M	FP16	約4.2 MB

パフォーマンス最適化

MLX compile() — 自己回帰ループでのカーネル融合。Talkerはcompile(shapeless: true)、Code Predictorは固定キャッシュサイズのcompile(shapeless: false)を使用します。
Metalシェーダーライブラリ — プリコンパイルされたmetallibにより、約5倍のJITコンパイルオーバーヘッドを回避します。scripts/build_mlx_metallib.shでビルドします。
チャンク化コーデックデコード — TTSデコーダーは、GPUタイムアウトを回避するために、10フレームのコンテキストオーバーラップで25フレームのチャンクで音声を処理します。
バッチ倍増CFG — CosyVoice3 DiTは、条件付きと非条件付きを一緒にバッチ化することで、フローマッチングのパス数を半減します。
融合RoPE — 手動回転の代わりに、Metalカーネルに支えられたMLXNN.RoPEを使用します。
BN融合 — WeSpeakerのバッチ正規化は、変換時にConv2dの重みに融合されます。

音声処理

すべての音声I/OはFloat32 PCMを使用します。内部リサンプリングによって形式変換が処理されます。

モデル	想定サンプリングレート	形式
Qwen3-ASR	16 kHz	モノラル Float32
Qwen3-TTS	24 kHz出力	モノラル Float32
CosyVoice3	24 kHz出力	モノラル Float32
Kokoro-82M	24 kHz出力	モノラル Float32
PersonaPlex	24 kHz I/O	モノラル Float32
Pyannote VAD	16 kHz	モノラル Float32
Silero VAD	16 kHz	モノラル Float32
WeSpeaker	16 kHz	モノラル Float32
DeepFilterNet3	48 kHz	モノラル Float32

ソース構造

Sources/
  AudioCommon/            共有プロトコル、音声I/O、HuggingFaceダウンローダー、
                          SentencePieceModel（protobufリーダー）
  MLXCommon/              MLXユーティリティ：ウェイトローディング、QuantizedLinearヘルパー、
                          SDPAマルチヘッドアテンションヘルパー、metalバジェット
  Qwen3Common/            共有モデルコンポーネント（KVキャッシュ、RoPE、量子化）
  Qwen3ASR/               Qwen3-ASR 音声認識
  ParakeetASR/            Parakeet TDT 音声認識 (CoreML)
  ParakeetStreamingASR/   Parakeet EOU 120M ストリーミングディクテーション (CoreML)
  OmnilingualASR/         Meta wav2vec2 + CTC、1,672言語
                          (CoreML 300M + MLX 300M / 1B / 3B / 7B)
  Qwen3TTS/               Qwen3-TTS 音声合成
  CosyVoiceTTS/           CosyVoice3 音声合成
  KokoroTTS/              Kokoro-82M 音声合成 (CoreML)
  Qwen3Chat/              Qwen3.5-0.8B オンデバイスLLMチャット (MLX + CoreML)
  PersonaPlex/            PersonaPlex 音声間変換
  SpeechVAD/              VAD (Silero + Pyannote)、ダイアライゼーション、話者embedding
  SpeechEnhancement/      DeepFilterNet3 ノイズ抑制 (CoreML)
  SourceSeparation/       Open-Unmix HQ / UMX-L music source separation (MLX, 4 stems)
  MAGNeTMusicGen/         MAGNeT text-to-music generation (MLX, 30 s @ 32 kHz, INT4/INT8)
  VoxCPM2TTS/             VoxCPM2 text-to-speech (MLX, 48 kHz, voice cloning + voice design)
  VibeVoiceTTS/           VibeVoice long-form / multi-speaker TTS (MLX, EN/ZH)
  MADLADTranslation/      MADLAD-400 many-to-many translation (MLX, 400+ languages)
  AudioCLILib/            CLIコマンド実装
  AudioCLI/               CLIエントリポイント

scripts/              モデル変換 (PyTorch → MLX/CoreML)、ベンチマーク
Tests/                ユニットと統合テスト
Examples/             デモアプリ (PersonaPlexDemo, SpeechDemo)