Architektur

speech-swift ist als modulares Swift-Paket organisiert mit gemeinsamen Protokollen, unabhängigen Modellmodulen und einer einheitlichen CLI. Die gesamte Inferenz läuft auf dem Gerät über MLX (Metal-GPU) oder CoreML (Neural Engine).

Modul-Abhängigkeitsgraph

                    ┌──────────┐
                    │ AudioCLI │  (Einstiegspunkt)
                    └────┬─────┘
                         │
                  ┌──────┴──────┐
                  │ AudioCLILib │  (Befehle)
                  └──────┬──────┘
                         │
       ┌─────────┬───────┼───────┬──────────┬──────────────┐
       │         │       │       │          │              │
  ┌────┴───┐ ┌──┴──┐ ┌──┴──┐ ┌─┴────┐ ┌───┴────┐ ┌──────┴───────┐
  │Qwen3ASR│ │Qwen3│ │Cosy │ │Perso-│ │Speech- │ │  Speech-     │
  │Parakeet│ │ TTS │ │Voice│ │naPlex│ │  VAD   │ │Enhancement   │
  └────┬───┘ └──┬──┘ └──┬──┘ └──┬───┘ └───┬───┘ └──────┬───────┘
       │        │       │       │         │             │
       └────────┴───────┼───────┴─────────┘             │
                        │                               │
                 ┌──────┴──────┐                        │
                 │ Qwen3Common │  (gemeinsame Schichten)│
                 └──────┬──────┘                        │
                        │                               │
                 ┌──────┴──────┐                        │
                 │ AudioCommon │ ◄──────────────────────┘
                 └─────────────┘  (Protokolle, Audio-I/O)

Inferenz-Backends

Backend	Hardware	Modelle
MLX	Metal-GPU	Qwen3-ASR, Qwen3-TTS, CosyVoice3, Qwen3.5-Chat, PersonaPlex, Omnilingual ASR (300M / 1B / 3B / 7B), Pyannote, Silero VAD, WeSpeaker
CoreML	Neural Engine	Qwen3-ASR-Encoder (Hybrid), Parakeet TDT, Parakeet EOU Streaming, Omnilingual ASR 300M, Kokoro-82M, Qwen3.5-Chat (optional), Sortformer-Diarisierung, DeepFilterNet3, Silero VAD (optional), WeSpeaker (optional)
Accelerate	CPU (SIMD)	Audio-Vorverarbeitung (STFT, Mel, FFT), Signalverarbeitung

Modell-Gewichtsformat

MLX-Modelle verwenden das Format safetensors mit 4-Bit- oder 8-Bit-Quantisierung (Gruppengröße 64). CoreML-Modelle verwenden das kompilierte Format .mlmodelc. Konvertierungsskripte in scripts/ konvertieren aus PyTorch-Checkpoints.

Modell	Parameter	Quantisierung	Größe auf Disk
Qwen3-ASR 0.6B (MLX)	~600M	4-Bit / 8-Bit	680 MB / 1,0 GB
Qwen3-ASR 0.6B (CoreML)	~186M (Encoder)	INT8	~180 MB
Qwen3-ASR 1.7B (MLX)	~1,7B	4-Bit / 8-Bit	2,1 GB / 3,2 GB
Parakeet-TDT 0.6B (CoreML)	~600M	INT8	500 MB
Parakeet-EOU 120M (CoreML)	~120M	INT8	~120 MB
Omnilingual-ASR-CTC 300M (CoreML)	326M	INT8	312 MB
Omnilingual-ASR-CTC 300M (MLX)	326M	4-Bit / 8-Bit	193 MB / 342 MB
Omnilingual-ASR-CTC 1B (MLX)	1,01B	4-Bit / 8-Bit	549 MB / 1006 MB
Omnilingual-ASR-CTC 3B (MLX)	~3B	4-Bit / 8-Bit	1,71 GB / 3,16 GB
Omnilingual-ASR-CTC 7B (MLX)	~7B	4-Bit / 8-Bit	3,55 GB / 6,63 GB
Qwen3-ForcedAligner 0.6B (MLX)	~600M	4-Bit / 8-Bit	979 MB / 1,4 GB
Qwen3-ForcedAligner 0.6B (CoreML)	~600M	INT4 / INT8	630 MB / 1,0 GB
Qwen3-TTS 0.6B (MLX)	~600M	4-Bit / 8-Bit	1,7 GB / 2,4 GB
Qwen3-TTS 1.7B (MLX)	~1,7B	4-Bit / 8-Bit	3,2 GB / 4,8 GB
CosyVoice3 0.5B (MLX)	~500M	4-Bit-LLM	~1,2 GB
Kokoro-82M (CoreML)	82M	INT8 (1 Bucket)	~89 MB
Qwen3.5-Chat 0.8B (MLX)	~800M	INT4	418 MB
Qwen3.5-Chat 0.8B (CoreML)	~800M	INT8	981 MB
PersonaPlex 7B (MLX)	~7B	4-Bit / 8-Bit	4,9 GB / 9,1 GB
Pyannote VAD (MLX)	~1,49M	float32	~5,7 MB
Silero VAD v5	~309K	float32	~1,2 MB (MLX & CoreML)
WeSpeaker ResNet34	~6,6M	float32	~25 MB (MLX & CoreML)
Sortformer (CoreML)	—	float16	~50 MB
DeepFilterNet3 (CoreML)	~2,1M	FP16	~4,2 MB

Leistungsoptimierungen

MLX compile() — Kernel-Fusion für autoregressive Schleifen. Talker verwendet compile(shapeless: true), Code-Predictor verwendet compile(shapeless: false) mit festen Cache-Größen.
Metal-Shader-Bibliothek — Vorab kompilierte metallib vermeidet ~5-fachen JIT-Kompilierungsoverhead. Erstellt über scripts/build_mlx_metallib.sh.
Chunked Codec Decode — Der TTS-Decoder verarbeitet Audio in 25-Frame-Chunks mit 10-Frame-Kontextüberlappung, um GPU-Timeouts zu vermeiden.
Batch-doppeltes CFG — CosyVoice3 DiT halbiert Flow-Matching-Durchläufe, indem es bedingte + unbedingte zusammen batcht.
Fused RoPE — Verwendet MLXNN.RoPE auf Basis eines Metal-Kernels statt manueller Rotation.
BN-Fusion — WeSpeaker-Batch-Normalisierung wird zur Konvertierungszeit in Conv2d-Gewichte fusioniert.

Audio-Verarbeitung

Alle Audio-I/O verwenden Float32-PCM. Internes Resampling übernimmt die Formatkonvertierung:

Modell	Erwartete Rate	Format
Qwen3-ASR	16 kHz	Mono Float32
Qwen3-TTS	24 kHz Ausgabe	Mono Float32
CosyVoice3	24 kHz Ausgabe	Mono Float32
Kokoro-82M	24 kHz Ausgabe	Mono Float32
PersonaPlex	24 kHz I/O	Mono Float32
Pyannote VAD	16 kHz	Mono Float32
Silero VAD	16 kHz	Mono Float32
WeSpeaker	16 kHz	Mono Float32
DeepFilterNet3	48 kHz	Mono Float32

Quellstruktur

Sources/
  AudioCommon/            Gemeinsame Protokolle, Audio-I/O, HuggingFace-Downloader,
                          SentencePieceModel (protobuf-Reader)
  MLXCommon/              MLX-Hilfsprogramme: Gewichtsladen, QuantizedLinear-Helfer,
                          SDPA-Multi-Head-Attention-Helfer, Metal-Budget
  Qwen3Common/            Gemeinsame Modellkomponenten (KV-Cache, RoPE, Quantisierung)
  Qwen3ASR/               Qwen3-ASR Sprache-zu-Text
  ParakeetASR/            Parakeet TDT Sprache-zu-Text (CoreML)
  ParakeetStreamingASR/   Parakeet EOU 120M Streaming-Diktat (CoreML)
  OmnilingualASR/         Meta wav2vec2 + CTC, 1.672 Sprachen
                          (CoreML 300M + MLX 300M / 1B / 3B / 7B)
  Qwen3TTS/               Qwen3-TTS Text-zu-Sprache
  CosyVoiceTTS/           CosyVoice3 Text-zu-Sprache
  KokoroTTS/              Kokoro-82M Text-zu-Sprache (CoreML)
  Qwen3Chat/              Qwen3.5-0.8B LLM-Chat auf dem Gerät (MLX + CoreML)
  PersonaPlex/            PersonaPlex Sprache-zu-Sprache
  SpeechVAD/              VAD (Silero + Pyannote), Diarisierung, Sprechereinbettungen
  SpeechEnhancement/      DeepFilterNet3 Rauschunterdrückung (CoreML)
  SourceSeparation/       Open-Unmix HQ / UMX-L music source separation (MLX, 4 stems)
  MAGNeTMusicGen/         MAGNeT text-to-music generation (MLX, 30 s @ 32 kHz, INT4/INT8)
  VoxCPM2TTS/             VoxCPM2 text-to-speech (MLX, 48 kHz, voice cloning + voice design)
  VibeVoiceTTS/           VibeVoice long-form / multi-speaker TTS (MLX, EN/ZH)
  MADLADTranslation/      MADLAD-400 many-to-many translation (MLX, 400+ languages)
  AudioCLILib/            CLI-Befehlsimplementierungen
  AudioCLI/               CLI-Einstiegspunkt

scripts/              Modellkonvertierung (PyTorch → MLX/CoreML), Benchmarking
Tests/                Unit- und Integrationstests
Examples/             Demo-Apps (PersonaPlexDemo, SpeechDemo)