البنية

speech-swift منظَّم كحزمة Swift وحدوية ذات بروتوكولات مشتركة، ووحدات نماذج مستقلة، وواجهة CLI موحَّدة. يجري كل الاستدلال على الجهاز باستخدام MLX (GPU Metal) أو CoreML (Neural Engine).

مخطط اعتماديات الوحدات

                    ┌──────────┐
                    │ AudioCLI │  (نقطة الدخول)
                    └────┬─────┘
                         │
                  ┌──────┴──────┐
                  │ AudioCLILib │  (الأوامر)
                  └──────┬──────┘
                         │
       ┌─────────┬───────┼───────┬──────────┬──────────────┐
       │         │       │       │          │              │
  ┌────┴───┐ ┌──┴──┐ ┌──┴──┐ ┌─┴────┐ ┌───┴────┐ ┌──────┴───────┐
  │Qwen3ASR│ │Qwen3│ │Cosy │ │Perso-│ │Speech- │ │  Speech-     │
  │Parakeet│ │ TTS │ │Voice│ │naPlex│ │  VAD   │ │Enhancement   │
  └────┬───┘ └──┬──┘ └──┬──┘ └──┬───┘ └───┬───┘ └──────┬───────┘
       │        │       │       │         │             │
       └────────┴───────┼───────┴─────────┘             │
                        │                               │
                 ┌──────┴──────┐                        │
                 │ Qwen3Common │  (طبقات مشتركة)        │
                 └──────┬──────┘                        │
                        │                               │
                 ┌──────┴──────┐                        │
                 │ AudioCommon │ ◄──────────────────────┘
                 └─────────────┘  (بروتوكولات، إدخال/إخراج صوتي)

محرّكات الاستدلال الخلفية

المحرّك الخلفي	العتاد	النماذج
MLX	GPU Metal	Qwen3-ASR, Qwen3-TTS, CosyVoice3, IndexTTS2, Qwen3.5-Chat, PersonaPlex, Omnilingual ASR (300M / 1B / 3B / 7B), Pyannote, Silero VAD, WeSpeaker
CoreML	Neural Engine	مُرمِّز Qwen3-ASR (هجين)، Parakeet TDT، Parakeet EOU streaming، Omnilingual ASR 300M، Kokoro-82M، Qwen3.5-Chat (اختياري)، فرز المتحدثين Sortformer، DeepFilterNet3، Silero VAD (اختياري)، WeSpeaker (اختياري)
Accelerate	CPU (SIMD)	معالجة الصوت الأولية (STFT، mel، FFT) ومعالجة الإشارات

صيغة أوزان النماذج

تستخدم نماذج MLX صيغة safetensors مع تكميم بـ 4 بت أو 8 بت (حجم المجموعة 64). تستخدم نماذج CoreML الصيغة المُجمَّعة .mlmodelc. تقوم سكربتات التحويل في scripts/ بالتحويل من نقاط حفظ PyTorch.

النموذج	المعاملات	التكميم	الحجم على القرص
Qwen3-ASR 0.6B (MLX)	~600M	4-bit / 8-bit	680 MB / 1.0 GB
Qwen3-ASR 0.6B (CoreML)	~186M (encoder)	INT8	~180 MB
Qwen3-ASR 1.7B (MLX)	~1.7B	4-bit / 8-bit	2.1 GB / 3.2 GB
Parakeet-TDT 0.6B (CoreML)	~600M	INT8	500 MB
Whisper Large-v3 Turbo (CoreML)	809M	FP16	1.6 GB
Parakeet-EOU 120M (CoreML)	~120M	INT8	~120 MB
Omnilingual-ASR-CTC 300M (CoreML)	326M	INT8	312 MB
Omnilingual-ASR-CTC 300M (MLX)	326M	4-bit / 8-bit	193 MB / 342 MB
Omnilingual-ASR-CTC 1B (MLX)	1.01B	4-bit / 8-bit	549 MB / 1006 MB
Omnilingual-ASR-CTC 3B (MLX)	~3B	4-bit / 8-bit	1.71 GB / 3.16 GB
Omnilingual-ASR-CTC 7B (MLX)	~7B	4-bit / 8-bit	3.55 GB / 6.63 GB
Qwen3-ForcedAligner 0.6B (MLX)	~600M	4-bit / 8-bit	979 MB / 1.4 GB
Qwen3-ForcedAligner 0.6B (CoreML)	~600M	INT4 / INT8	630 MB / 1.0 GB
Qwen3-TTS 0.6B (MLX)	~600M	4-bit / 8-bit	1.7 GB / 2.4 GB
Qwen3-TTS 1.7B (MLX)	~1.7B	4-bit / 8-bit	3.2 GB / 4.8 GB
CosyVoice3 0.5B (MLX)	~500M	LLM بـ 4-bit	~1.2 GB
IndexTTS2 expanded bundle (MLX)	1.5B-class	FP16 + auxiliary models	~4.8 GB
Kokoro-82M (CoreML)	82M	INT8 (1 bucket)	~89 MB
Qwen3.5-Chat 0.8B (MLX)	~800M	INT4	418 MB
Qwen3.5-Chat 0.8B (CoreML)	~800M	INT8	981 MB
PersonaPlex 7B (MLX)	~7B	4-bit / 8-bit	4.9 GB / 9.1 GB
Pyannote VAD (MLX)	~1.49M	float32	~5.7 MB
Silero VAD v5	~309K	float32	~1.2 MB (MLX وCoreML)
WeSpeaker ResNet34	~6.6M	float32	~25 MB (MLX وCoreML)
Sortformer (CoreML)	—	float16	~50 MB
DeepFilterNet3 (CoreML)	~2.1M	FP16	~4.2 MB

تحسينات الأداء

MLX compile() — دمج النوى للحلقات ذاتية الانحدار. يستخدم Talker compile(shapeless: true)، ويستخدم Code Predictor compile(shapeless: false) بأحجام ذاكرة تخزين مؤقت ثابتة.
مكتبة شيدرات Metal — يتجنّب metallib المُجمَّع مسبقًا حمل تجميع JIT بنحو 5x. يُبنى عبر scripts/build_mlx_metallib.sh.
فك ترميز الكوديك بالأجزاء — يعالج مفكِّك TTS الكلامَ في أجزاء من 25 إطارًا مع تداخل سياق بـ 10 إطارات لتفادي انتهاء مهلة GPU.
CFG بمضاعفة الدفعات — يقلِّص DiT في CosyVoice3 تمريرات flow matching إلى النصف بتجميع المشروط واللامشروط في دفعة واحدة.
RoPE مدموج — يستخدم MLXNN.RoPE المدعوم بنواة Metal بدل التدوير اليدوي.
دمج BN — تُدمج batch normalization في WeSpeaker ضمن أوزان Conv2d وقت التحويل.

معالجة الصوت

يستخدم كل إدخال/إخراج صوتي PCM بصيغة Float32. يتولّى إعادة العيّنات الداخلي تحويل الصيغ:

النموذج	المعدّل المتوقَّع	الصيغة
Qwen3-ASR	16 kHz	Mono Float32
Qwen3-TTS	24 kHz للخرج	Mono Float32
CosyVoice3	24 kHz للخرج	Mono Float32
Kokoro-82M	24 kHz للخرج	Mono Float32
PersonaPlex	24 kHz إدخال/إخراج	Mono Float32
Pyannote VAD	16 kHz	Mono Float32
Silero VAD	16 kHz	Mono Float32
WeSpeaker	16 kHz	Mono Float32
DeepFilterNet3	48 kHz	Mono Float32

هيكل الكود المصدري

Sources/
  AudioCommon/            بروتوكولات مشتركة، إدخال/إخراج صوتي،
                          مُنزِّل HuggingFace، SentencePieceModel (قارئ protobuf)
  MLXCommon/              أدوات MLX: تحميل الأوزان، مساعدات QuantizedLinear،
                          مساعد انتباه متعدّد الرؤوس SDPA، ميزانية metal
  Qwen3Common/            مكوّنات نماذج مشتركة (ذاكرة KV، RoPE، التكميم)
  Qwen3ASR/               Qwen3-ASR من الصوت إلى النص
  ParakeetASR/            Parakeet TDT من الصوت إلى النص (CoreML)
  ParakeetStreamingASR/   إملاء متدفّق Parakeet EOU 120M (CoreML)
  OmnilingualASR/         Meta wav2vec2 + CTC، 1,672 لغة
                          (CoreML 300M + MLX 300M / 1B / 3B / 7B)
  Qwen3TTS/               Qwen3-TTS من النص إلى الكلام
  CosyVoiceTTS/           CosyVoice3 من النص إلى الكلام
  KokoroTTS/              Kokoro-82M من النص إلى الكلام (CoreML)
  Qwen3Chat/              دردشة LLM على الجهاز Qwen3.5-0.8B (MLX + CoreML)
  PersonaPlex/            PersonaPlex من الكلام إلى الكلام
  SpeechVAD/              VAD (Silero + Pyannote)، فرز المتحدثين، تضمينات المتحدث
  SpeechEnhancement/      كبت الضوضاء DeepFilterNet3 (CoreML)
  SourceSeparation/       Open-Unmix HQ / UMX-L + HTDemucs (Demucs v4) music source separation (MLX, 4 stems)
  MAGNeTMusicGen/         MAGNeT text-to-music generation (MLX, 30 s @ 32 kHz, INT4/INT8)
  VoxCPM2TTS/             VoxCPM2 text-to-speech (MLX, 48 kHz, voice cloning + voice design)
  IndexTTS2TTS/           IndexTTS2 voice cloning (MLX, semantic GPT + emotion/tempo/pause control + S2Mel + BigVGAN)
  VibeVoiceTTS/           VibeVoice long-form / multi-speaker TTS (MLX, EN/ZH)
  MagpieTTS/              NVIDIA Magpie-TTS Multilingual 357M (MLX INT4/INT8,
                          9 languages, 5 baked speakers, streaming)
  MagpieTTSCoreML/        Magpie CoreML backend (4 .mlmodelc + Swift-side
                          FSQ inverse; 8 languages, batch-only; hybrid
                          with MagpieTTS for LocalTransformer + audio
                          embeddings)
  MADLADTranslation/      MADLAD-400 many-to-many translation (MLX, 400+ languages)
  AudioCLILib/            تنفيذات أوامر CLI
  AudioCLI/               نقطة دخول CLI

scripts/              تحويل النماذج (PyTorch → MLX/CoreML)، اختبارات الأداء
Tests/                اختبارات الوحدة والتكامل
Examples/             تطبيقات تجريبية (PersonaPlexDemo, SpeechDemo)