Architektur
speech-swift ist als modulares Swift-Paket organisiert mit gemeinsamen Protokollen, unabhängigen Modellmodulen und einer einheitlichen CLI. Die gesamte Inferenz läuft auf dem Gerät über MLX (Metal-GPU) oder CoreML (Neural Engine).
Modul-Abhängigkeitsgraph
┌──────────┐
│ AudioCLI │ (Einstiegspunkt)
└────┬─────┘
│
┌──────┴──────┐
│ AudioCLILib │ (Befehle)
└──────┬──────┘
│
┌─────────┬───────┼───────┬──────────┬──────────────┐
│ │ │ │ │ │
┌────┴───┐ ┌──┴──┐ ┌──┴──┐ ┌─┴────┐ ┌───┴────┐ ┌──────┴───────┐
│Qwen3ASR│ │Qwen3│ │Cosy │ │Perso-│ │Speech- │ │ Speech- │
│Parakeet│ │ TTS │ │Voice│ │naPlex│ │ VAD │ │Enhancement │
└────┬───┘ └──┬──┘ └──┬──┘ └──┬───┘ └───┬───┘ └──────┬───────┘
│ │ │ │ │ │
└────────┴───────┼───────┴─────────┘ │
│ │
┌──────┴──────┐ │
│ Qwen3Common │ (gemeinsame Schichten)│
└──────┬──────┘ │
│ │
┌──────┴──────┐ │
│ AudioCommon │ ◄──────────────────────┘
└─────────────┘ (Protokolle, Audio-I/O)Inferenz-Backends
| Backend | Hardware | Modelle |
|---|---|---|
| MLX | Metal-GPU | Qwen3-ASR, Qwen3-TTS, CosyVoice3, Qwen3.5-Chat, PersonaPlex, Omnilingual ASR (300M / 1B / 3B / 7B), Pyannote, Silero VAD, WeSpeaker |
| CoreML | Neural Engine | Qwen3-ASR-Encoder (Hybrid), Parakeet TDT, Parakeet EOU Streaming, Omnilingual ASR 300M, Kokoro-82M, Qwen3.5-Chat (optional), Sortformer-Diarisierung, DeepFilterNet3, Silero VAD (optional), WeSpeaker (optional) |
| Accelerate | CPU (SIMD) | Audio-Vorverarbeitung (STFT, Mel, FFT), Signalverarbeitung |
Modell-Gewichtsformat
MLX-Modelle verwenden das Format safetensors mit 4-Bit- oder 8-Bit-Quantisierung (Gruppengröße 64). CoreML-Modelle verwenden das kompilierte Format .mlmodelc. Konvertierungsskripte in scripts/ konvertieren aus PyTorch-Checkpoints.
| Modell | Parameter | Quantisierung | Größe auf Disk |
|---|---|---|---|
| Qwen3-ASR 0.6B (MLX) | ~600M | 4-Bit / 8-Bit | 680 MB / 1,0 GB |
| Qwen3-ASR 0.6B (CoreML) | ~186M (Encoder) | INT8 | ~180 MB |
| Qwen3-ASR 1.7B (MLX) | ~1,7B | 4-Bit / 8-Bit | 2,1 GB / 3,2 GB |
| Parakeet-TDT 0.6B (CoreML) | ~600M | INT8 | 500 MB |
| Parakeet-EOU 120M (CoreML) | ~120M | INT8 | ~120 MB |
| Omnilingual-ASR-CTC 300M (CoreML) | 326M | INT8 | 312 MB |
| Omnilingual-ASR-CTC 300M (MLX) | 326M | 4-Bit / 8-Bit | 193 MB / 342 MB |
| Omnilingual-ASR-CTC 1B (MLX) | 1,01B | 4-Bit / 8-Bit | 549 MB / 1006 MB |
| Omnilingual-ASR-CTC 3B (MLX) | ~3B | 4-Bit / 8-Bit | 1,71 GB / 3,16 GB |
| Omnilingual-ASR-CTC 7B (MLX) | ~7B | 4-Bit / 8-Bit | 3,55 GB / 6,63 GB |
| Qwen3-ForcedAligner 0.6B (MLX) | ~600M | 4-Bit / 8-Bit | 979 MB / 1,4 GB |
| Qwen3-ForcedAligner 0.6B (CoreML) | ~600M | INT4 / INT8 | 630 MB / 1,0 GB |
| Qwen3-TTS 0.6B (MLX) | ~600M | 4-Bit / 8-Bit | 1,7 GB / 2,4 GB |
| Qwen3-TTS 1.7B (MLX) | ~1,7B | 4-Bit / 8-Bit | 3,2 GB / 4,8 GB |
| CosyVoice3 0.5B (MLX) | ~500M | 4-Bit-LLM | ~1,2 GB |
| Kokoro-82M (CoreML) | 82M | INT8 (1 Bucket) | ~89 MB |
| Qwen3.5-Chat 0.8B (MLX) | ~800M | INT4 | 418 MB |
| Qwen3.5-Chat 0.8B (CoreML) | ~800M | INT8 | 981 MB |
| PersonaPlex 7B (MLX) | ~7B | 4-Bit / 8-Bit | 4,9 GB / 9,1 GB |
| Pyannote VAD (MLX) | ~1,49M | float32 | ~5,7 MB |
| Silero VAD v5 | ~309K | float32 | ~1,2 MB (MLX & CoreML) |
| WeSpeaker ResNet34 | ~6,6M | float32 | ~25 MB (MLX & CoreML) |
| Sortformer (CoreML) | — | float16 | ~50 MB |
| DeepFilterNet3 (CoreML) | ~2,1M | FP16 | ~4,2 MB |
Leistungsoptimierungen
- MLX compile() — Kernel-Fusion für autoregressive Schleifen. Talker verwendet
compile(shapeless: true), Code-Predictor verwendetcompile(shapeless: false)mit festen Cache-Größen. - Metal-Shader-Bibliothek — Vorab kompilierte metallib vermeidet ~5-fachen JIT-Kompilierungsoverhead. Erstellt über
scripts/build_mlx_metallib.sh. - Chunked Codec Decode — Der TTS-Decoder verarbeitet Audio in 25-Frame-Chunks mit 10-Frame-Kontextüberlappung, um GPU-Timeouts zu vermeiden.
- Batch-doppeltes CFG — CosyVoice3 DiT halbiert Flow-Matching-Durchläufe, indem es bedingte + unbedingte zusammen batcht.
- Fused RoPE — Verwendet
MLXNN.RoPEauf Basis eines Metal-Kernels statt manueller Rotation. - BN-Fusion — WeSpeaker-Batch-Normalisierung wird zur Konvertierungszeit in Conv2d-Gewichte fusioniert.
Audio-Verarbeitung
Alle Audio-I/O verwenden Float32-PCM. Internes Resampling übernimmt die Formatkonvertierung:
| Modell | Erwartete Rate | Format |
|---|---|---|
| Qwen3-ASR | 16 kHz | Mono Float32 |
| Qwen3-TTS | 24 kHz Ausgabe | Mono Float32 |
| CosyVoice3 | 24 kHz Ausgabe | Mono Float32 |
| Kokoro-82M | 24 kHz Ausgabe | Mono Float32 |
| PersonaPlex | 24 kHz I/O | Mono Float32 |
| Pyannote VAD | 16 kHz | Mono Float32 |
| Silero VAD | 16 kHz | Mono Float32 |
| WeSpeaker | 16 kHz | Mono Float32 |
| DeepFilterNet3 | 48 kHz | Mono Float32 |
Quellstruktur
Sources/
AudioCommon/ Gemeinsame Protokolle, Audio-I/O, HuggingFace-Downloader,
SentencePieceModel (protobuf-Reader)
MLXCommon/ MLX-Hilfsprogramme: Gewichtsladen, QuantizedLinear-Helfer,
SDPA-Multi-Head-Attention-Helfer, Metal-Budget
Qwen3Common/ Gemeinsame Modellkomponenten (KV-Cache, RoPE, Quantisierung)
Qwen3ASR/ Qwen3-ASR Sprache-zu-Text
ParakeetASR/ Parakeet TDT Sprache-zu-Text (CoreML)
ParakeetStreamingASR/ Parakeet EOU 120M Streaming-Diktat (CoreML)
OmnilingualASR/ Meta wav2vec2 + CTC, 1.672 Sprachen
(CoreML 300M + MLX 300M / 1B / 3B / 7B)
Qwen3TTS/ Qwen3-TTS Text-zu-Sprache
CosyVoiceTTS/ CosyVoice3 Text-zu-Sprache
KokoroTTS/ Kokoro-82M Text-zu-Sprache (CoreML)
Qwen3Chat/ Qwen3.5-0.8B LLM-Chat auf dem Gerät (MLX + CoreML)
PersonaPlex/ PersonaPlex Sprache-zu-Sprache
SpeechVAD/ VAD (Silero + Pyannote), Diarisierung, Sprechereinbettungen
SpeechEnhancement/ DeepFilterNet3 Rauschunterdrückung (CoreML)
AudioCLILib/ CLI-Befehlsimplementierungen
AudioCLI/ CLI-Einstiegspunkt
scripts/ Modellkonvertierung (PyTorch → MLX/CoreML), Benchmarking
Tests/ Unit- und Integrationstests
Examples/ Demo-Apps (PersonaPlexDemo, SpeechDemo)