아키텍처

speech-swift는 공유 프로토콜, 독립적인 모델 모듈, 통합 CLI를 갖춘 모듈식 Swift 패키지로 구성되어 있습니다. 모든 추론은 MLX (Metal GPU) 또는 CoreML (Neural Engine)을 사용해 온디바이스에서 실행됩니다.

모듈 종속성 그래프

                    ┌──────────┐
                    │ AudioCLI │  (entry point)
                    └────┬─────┘
                         │
                  ┌──────┴──────┐
                  │ AudioCLILib │  (commands)
                  └──────┬──────┘
                         │
       ┌─────────┬───────┼───────┬──────────┬──────────────┐
       │         │       │       │          │              │
  ┌────┴───┐ ┌──┴──┐ ┌──┴──┐ ┌─┴────┐ ┌───┴────┐ ┌──────┴───────┐
  │Qwen3ASR│ │Qwen3│ │Cosy │ │Perso-│ │Speech- │ │  Speech-     │
  │Parakeet│ │ TTS │ │Voice│ │naPlex│ │  VAD   │ │Enhancement   │
  └────┬───┘ └──┬──┘ └──┬──┘ └──┬───┘ └───┬───┘ └──────┬───────┘
       │        │       │       │         │             │
       └────────┴───────┼───────┴─────────┘             │
                        │                               │
                 ┌──────┴──────┐                        │
                 │ Qwen3Common │  (shared layers)       │
                 └──────┬──────┘                        │
                        │                               │
                 ┌──────┴──────┐                        │
                 │ AudioCommon │ ◄──────────────────────┘
                 └─────────────┘  (protocols, audio I/O)

추론 백엔드

백엔드	하드웨어	모델
MLX	Metal GPU	Qwen3-ASR, Qwen3-TTS, CosyVoice3, Qwen3.5-Chat, PersonaPlex, Omnilingual ASR (300M / 1B / 3B / 7B), Pyannote, Silero VAD, WeSpeaker
CoreML	Neural Engine	Qwen3-ASR 인코더 (하이브리드), Parakeet TDT, Parakeet EOU 스트리밍, Omnilingual ASR 300M, Kokoro-82M, Qwen3.5-Chat (옵션), Sortformer 화자 분리, DeepFilterNet3, Silero VAD (옵션), WeSpeaker (옵션)
Accelerate	CPU (SIMD)	오디오 전처리 (STFT, 멜, FFT), 신호 처리

모델 웨이트 포맷

MLX 모델은 4비트 또는 8비트 양자화 (그룹 크기 64)를 적용한 safetensors 포맷을 사용합니다. CoreML 모델은 컴파일된 .mlmodelc 포맷을 사용합니다. scripts/의 변환 스크립트가 PyTorch 체크포인트로부터 변환합니다.

모델	파라미터	양자화	디스크 크기
Qwen3-ASR 0.6B (MLX)	약 600M	4비트 / 8비트	680 MB / 1.0 GB
Qwen3-ASR 0.6B (CoreML)	약 186M (인코더)	INT8	약 180 MB
Qwen3-ASR 1.7B (MLX)	약 1.7B	4비트 / 8비트	2.1 GB / 3.2 GB
Parakeet-TDT 0.6B (CoreML)	약 600M	INT8	500 MB
Parakeet-EOU 120M (CoreML)	약 120M	INT8	약 120 MB
Omnilingual-ASR-CTC 300M (CoreML)	326M	INT8	312 MB
Omnilingual-ASR-CTC 300M (MLX)	326M	4비트 / 8비트	193 MB / 342 MB
Omnilingual-ASR-CTC 1B (MLX)	1.01B	4비트 / 8비트	549 MB / 1006 MB
Omnilingual-ASR-CTC 3B (MLX)	약 3B	4비트 / 8비트	1.71 GB / 3.16 GB
Omnilingual-ASR-CTC 7B (MLX)	약 7B	4비트 / 8비트	3.55 GB / 6.63 GB
Qwen3-ForcedAligner 0.6B (MLX)	약 600M	4비트 / 8비트	979 MB / 1.4 GB
Qwen3-ForcedAligner 0.6B (CoreML)	약 600M	INT4 / INT8	630 MB / 1.0 GB
Qwen3-TTS 0.6B (MLX)	약 600M	4비트 / 8비트	1.7 GB / 2.4 GB
Qwen3-TTS 1.7B (MLX)	약 1.7B	4비트 / 8비트	3.2 GB / 4.8 GB
CosyVoice3 0.5B (MLX)	약 500M	4비트 LLM	약 1.2 GB
Kokoro-82M (CoreML)	82M	INT8 (1 버킷)	약 89 MB
Qwen3.5-Chat 0.8B (MLX)	약 800M	INT4	418 MB
Qwen3.5-Chat 0.8B (CoreML)	약 800M	INT8	981 MB
PersonaPlex 7B (MLX)	약 7B	4비트 / 8비트	4.9 GB / 9.1 GB
Pyannote VAD (MLX)	약 1.49M	float32	약 5.7 MB
Silero VAD v5	약 309K	float32	약 1.2 MB (MLX 및 CoreML)
WeSpeaker ResNet34	약 6.6M	float32	약 25 MB (MLX 및 CoreML)
Sortformer (CoreML)	—	float16	약 50 MB
DeepFilterNet3 (CoreML)	약 2.1M	FP16	약 4.2 MB

성능 최적화

MLX compile() — 자기회귀 루프를 위한 커널 융합. Talker는 compile(shapeless: true)를, Code Predictor는 고정 캐시 크기와 함께 compile(shapeless: false)를 사용합니다.
Metal 셰이더 라이브러리 — 사전 컴파일된 metallib로 약 5배의 JIT 컴파일 오버헤드를 회피합니다. scripts/build_mlx_metallib.sh로 빌드합니다.
청크 단위 코덱 디코딩 — TTS 디코더는 GPU 타임아웃을 피하기 위해 25 프레임 청크와 10 프레임 컨텍스트 오버랩으로 오디오를 처리합니다.
배치 2배 CFG — CosyVoice3 DiT는 조건부 + 무조건부를 함께 배치 처리하여 flow matching 패스를 절반으로 줄입니다.
융합 RoPE — 수동 회전 대신 Metal 커널 기반 MLXNN.RoPE를 사용합니다.
BN 융합 — WeSpeaker 배치 정규화는 변환 시 Conv2d 가중치에 융합됩니다.

오디오 처리

모든 오디오 I/O는 Float32 PCM을 사용합니다. 내부 리샘플링이 포맷 변환을 처리합니다:

모델	요구 샘플레이트	포맷
Qwen3-ASR	16 kHz	모노 Float32
Qwen3-TTS	24 kHz 출력	모노 Float32
CosyVoice3	24 kHz 출력	모노 Float32
Kokoro-82M	24 kHz 출력	모노 Float32
PersonaPlex	24 kHz I/O	모노 Float32
Pyannote VAD	16 kHz	모노 Float32
Silero VAD	16 kHz	모노 Float32
WeSpeaker	16 kHz	모노 Float32
DeepFilterNet3	48 kHz	모노 Float32

소스 구조

Sources/
  AudioCommon/            공유 프로토콜, 오디오 I/O, HuggingFace 다운로더,
                          SentencePieceModel (protobuf 리더)
  MLXCommon/              MLX 유틸리티: 웨이트 로딩, QuantizedLinear 헬퍼,
                          SDPA 멀티헤드 어텐션 헬퍼, metal budget
  Qwen3Common/            공유 모델 컴포넌트 (KV 캐시, RoPE, 양자화)
  Qwen3ASR/               Qwen3-ASR 음성-텍스트 변환
  ParakeetASR/            Parakeet TDT 음성-텍스트 변환 (CoreML)
  ParakeetStreamingASR/   Parakeet EOU 120M 스트리밍 받아쓰기 (CoreML)
  OmnilingualASR/         Meta wav2vec2 + CTC, 1,672개 언어
                          (CoreML 300M + MLX 300M / 1B / 3B / 7B)
  Qwen3TTS/               Qwen3-TTS 텍스트-음성 변환
  CosyVoiceTTS/           CosyVoice3 텍스트-음성 변환
  KokoroTTS/              Kokoro-82M 텍스트-음성 변환 (CoreML)
  Qwen3Chat/              Qwen3.5-0.8B 온디바이스 LLM 채팅 (MLX + CoreML)
  PersonaPlex/            PersonaPlex 음성-음성 변환
  SpeechVAD/              VAD (Silero + Pyannote), 화자 분리, 화자 임베딩
  SpeechEnhancement/      DeepFilterNet3 노이즈 억제 (CoreML)
  SourceSeparation/       Open-Unmix HQ / UMX-L music source separation (MLX, 4 stems)
  MAGNeTMusicGen/         MAGNeT text-to-music generation (MLX, 30 s @ 32 kHz, INT4/INT8)
  VoxCPM2TTS/             VoxCPM2 text-to-speech (MLX, 48 kHz, voice cloning + voice design)
  VibeVoiceTTS/           VibeVoice long-form / multi-speaker TTS (MLX, EN/ZH)
  MADLADTranslation/      MADLAD-400 many-to-many translation (MLX, 400+ languages)
  AudioCLILib/            CLI 명령 구현
  AudioCLI/               CLI 진입점

scripts/              모델 변환 (PyTorch → MLX/CoreML), 벤치마킹
Tests/                단위 및 통합 테스트
Examples/             데모 앱 (PersonaPlexDemo, SpeechDemo)