架构

speech-swift 是一个模块化的 Swift 包，由共享协议、独立的模型模块和统一的 CLI 组成。所有推理都在端侧使用 MLX（Metal GPU）或 CoreML（Neural Engine）运行。

模块依赖图

                    ┌──────────┐
                    │ AudioCLI │  (entry point)
                    └────┬─────┘
                         │
                  ┌──────┴──────┐
                  │ AudioCLILib │  (commands)
                  └──────┬──────┘
                         │
       ┌─────────┬───────┼───────┬──────────┬──────────────┐
       │         │       │       │          │              │
  ┌────┴───┐ ┌──┴──┐ ┌──┴──┐ ┌─┴────┐ ┌───┴────┐ ┌──────┴───────┐
  │Qwen3ASR│ │Qwen3│ │Cosy │ │Perso-│ │Speech- │ │  Speech-     │
  │Parakeet│ │ TTS │ │Voice│ │naPlex│ │  VAD   │ │Enhancement   │
  └────┬───┘ └──┬──┘ └──┬──┘ └──┬───┘ └───┬───┘ └──────┬───────┘
       │        │       │       │         │             │
       └────────┴───────┼───────┴─────────┘             │
                        │                               │
                 ┌──────┴──────┐                        │
                 │ Qwen3Common │  (shared layers)       │
                 └──────┬──────┘                        │
                        │                               │
                 ┌──────┴──────┐                        │
                 │ AudioCommon │ ◄──────────────────────┘
                 └─────────────┘  (protocols, audio I/O)

推理后端

后端	硬件	模型
MLX	Metal GPU	Qwen3-ASR、Qwen3-TTS、CosyVoice3、Qwen3.5-Chat、PersonaPlex、Omnilingual ASR (300M / 1B / 3B / 7B)、Pyannote、Silero VAD、WeSpeaker
CoreML	Neural Engine	Qwen3-ASR 编码器（混合）、Parakeet TDT、Parakeet EOU 流式、Omnilingual ASR 300M、Kokoro-82M、Qwen3.5-Chat（可选）、Sortformer 说话人分离、DeepFilterNet3、Silero VAD（可选）、WeSpeaker（可选）
Accelerate	CPU (SIMD)	音频预处理（STFT、mel、FFT）、信号处理

模型权重格式

MLX 模型采用 safetensors 格式，使用 4 位或 8 位量化（group size 64）。CoreML 模型采用 .mlmodelc 编译格式。scripts/ 中的转换脚本将 PyTorch checkpoint 转换为相应格式。

模型	参数量	量化	磁盘大小
Qwen3-ASR 0.6B (MLX)	~600M	4-bit / 8-bit	680 MB / 1.0 GB
Qwen3-ASR 0.6B (CoreML)	~186M（编码器）	INT8	~180 MB
Qwen3-ASR 1.7B (MLX)	~1.7B	4-bit / 8-bit	2.1 GB / 3.2 GB
Parakeet-TDT 0.6B (CoreML)	~600M	INT8	500 MB
Parakeet-EOU 120M (CoreML)	~120M	INT8	~120 MB
Omnilingual-ASR-CTC 300M (CoreML)	326M	INT8	312 MB
Omnilingual-ASR-CTC 300M (MLX)	326M	4-bit / 8-bit	193 MB / 342 MB
Omnilingual-ASR-CTC 1B (MLX)	1.01B	4-bit / 8-bit	549 MB / 1006 MB
Omnilingual-ASR-CTC 3B (MLX)	~3B	4-bit / 8-bit	1.71 GB / 3.16 GB
Omnilingual-ASR-CTC 7B (MLX)	~7B	4-bit / 8-bit	3.55 GB / 6.63 GB
Qwen3-ForcedAligner 0.6B (MLX)	~600M	4-bit / 8-bit	979 MB / 1.4 GB
Qwen3-ForcedAligner 0.6B (CoreML)	~600M	INT4 / INT8	630 MB / 1.0 GB
Qwen3-TTS 0.6B (MLX)	~600M	4-bit / 8-bit	1.7 GB / 2.4 GB
Qwen3-TTS 1.7B (MLX)	~1.7B	4-bit / 8-bit	3.2 GB / 4.8 GB
CosyVoice3 0.5B (MLX)	~500M	4-bit LLM	~1.2 GB
Kokoro-82M (CoreML)	82M	INT8（1 bucket）	~89 MB
Qwen3.5-Chat 0.8B (MLX)	~800M	INT4	418 MB
Qwen3.5-Chat 0.8B (CoreML)	~800M	INT8	981 MB
PersonaPlex 7B (MLX)	~7B	4-bit / 8-bit	4.9 GB / 9.1 GB
Pyannote VAD (MLX)	~1.49M	float32	~5.7 MB
Silero VAD v5	~309K	float32	~1.2 MB（MLX 与 CoreML）
WeSpeaker ResNet34	~6.6M	float32	~25 MB（MLX 与 CoreML）
Sortformer (CoreML)	—	float16	~50 MB
DeepFilterNet3 (CoreML)	~2.1M	FP16	~4.2 MB

性能优化

MLX compile() — 针对自回归循环的 kernel fusion。Talker 使用 compile(shapeless: true)，Code Predictor 使用固定 cache 大小的 compile(shapeless: false)。
Metal shader 库 — 预编译的 metallib 避免了约 5 倍的 JIT 编译开销。通过 scripts/build_mlx_metallib.sh 构建。
分块 codec 解码 — TTS 解码器以 25 帧为一块、10 帧上下文重叠的方式处理音频，避免 GPU 超时。
批量加倍 CFG — CosyVoice3 DiT 通过将 conditional 与 unconditional 一起 batch，把 flow matching 的 pass 数减半。
融合 RoPE — 使用基于 Metal kernel 的 MLXNN.RoPE，替代手动旋转。
BN 融合 — WeSpeaker 的 batch normalization 在转换时融合到 Conv2d 权重中。

音频处理

所有音频 I/O 都使用 Float32 PCM。内部的重采样负责格式转换：

模型	期望采样率	格式
Qwen3-ASR	16 kHz	Mono Float32
Qwen3-TTS	24 kHz 输出	Mono Float32
CosyVoice3	24 kHz 输出	Mono Float32
Kokoro-82M	24 kHz 输出	Mono Float32
PersonaPlex	24 kHz I/O	Mono Float32
Pyannote VAD	16 kHz	Mono Float32
Silero VAD	16 kHz	Mono Float32
WeSpeaker	16 kHz	Mono Float32
DeepFilterNet3	48 kHz	Mono Float32

源码结构

Sources/
  AudioCommon/            Shared protocols, audio I/O, HuggingFace downloader,
                          SentencePieceModel (protobuf reader)
  MLXCommon/              MLX utilities: weight loading, QuantizedLinear helpers,
                          SDPA multi-head attention helper, metal budget
  Qwen3Common/            Shared model components (KV cache, RoPE, quantization)
  Qwen3ASR/               Qwen3-ASR speech-to-text
  ParakeetASR/            Parakeet TDT speech-to-text (CoreML)
  ParakeetStreamingASR/   Parakeet EOU 120M streaming dictation (CoreML)
  OmnilingualASR/         Meta wav2vec2 + CTC, 1,672 languages
                          (CoreML 300M + MLX 300M / 1B / 3B / 7B)
  Qwen3TTS/               Qwen3-TTS text-to-speech
  CosyVoiceTTS/           CosyVoice3 text-to-speech
  KokoroTTS/              Kokoro-82M text-to-speech (CoreML)
  Qwen3Chat/              Qwen3.5-0.8B on-device LLM chat (MLX + CoreML)
  PersonaPlex/            PersonaPlex speech-to-speech
  SpeechVAD/              VAD (Silero + Pyannote), diarization, speaker embeddings
  SpeechEnhancement/      DeepFilterNet3 noise suppression (CoreML)
  SourceSeparation/       Open-Unmix HQ / UMX-L music source separation (MLX, 4 stems)
  MAGNeTMusicGen/         MAGNeT text-to-music generation (MLX, 30 s @ 32 kHz, INT4/INT8)
  VoxCPM2TTS/             VoxCPM2 text-to-speech (MLX, 48 kHz, voice cloning + voice design)
  VibeVoiceTTS/           VibeVoice long-form / multi-speaker TTS (MLX, EN/ZH)
  MADLADTranslation/      MADLAD-400 many-to-many translation (MLX, 400+ languages)
  AudioCLILib/            CLI command implementations
  AudioCLI/               CLI entry point

scripts/              Model conversion (PyTorch → MLX/CoreML), benchmarking
Tests/                Unit and integration tests
Examples/             Demo apps (PersonaPlexDemo, SpeechDemo)