아키텍처
speech-swift는 공유 프로토콜, 독립적인 모델 모듈, 통합 CLI를 갖춘 모듈식 Swift 패키지로 구성되어 있습니다. 모든 추론은 MLX (Metal GPU) 또는 CoreML (Neural Engine)을 사용해 온디바이스에서 실행됩니다.
모듈 종속성 그래프
┌──────────┐
│ AudioCLI │ (entry point)
└────┬─────┘
│
┌──────┴──────┐
│ AudioCLILib │ (commands)
└──────┬──────┘
│
┌─────────┬───────┼───────┬──────────┬──────────────┐
│ │ │ │ │ │
┌────┴───┐ ┌──┴──┐ ┌──┴──┐ ┌─┴────┐ ┌───┴────┐ ┌──────┴───────┐
│Qwen3ASR│ │Qwen3│ │Cosy │ │Perso-│ │Speech- │ │ Speech- │
│Parakeet│ │ TTS │ │Voice│ │naPlex│ │ VAD │ │Enhancement │
└────┬───┘ └──┬──┘ └──┬──┘ └──┬───┘ └───┬───┘ └──────┬───────┘
│ │ │ │ │ │
└────────┴───────┼───────┴─────────┘ │
│ │
┌──────┴──────┐ │
│ Qwen3Common │ (shared layers) │
└──────┬──────┘ │
│ │
┌──────┴──────┐ │
│ AudioCommon │ ◄──────────────────────┘
└─────────────┘ (protocols, audio I/O)추론 백엔드
| 백엔드 | 하드웨어 | 모델 |
|---|---|---|
| MLX | Metal GPU | Qwen3-ASR, Qwen3-TTS, CosyVoice3, Qwen3.5-Chat, PersonaPlex, Omnilingual ASR (300M / 1B / 3B / 7B), Pyannote, Silero VAD, WeSpeaker |
| CoreML | Neural Engine | Qwen3-ASR 인코더 (하이브리드), Parakeet TDT, Parakeet EOU 스트리밍, Omnilingual ASR 300M, Kokoro-82M, Qwen3.5-Chat (옵션), Sortformer 화자 분리, DeepFilterNet3, Silero VAD (옵션), WeSpeaker (옵션) |
| Accelerate | CPU (SIMD) | 오디오 전처리 (STFT, 멜, FFT), 신호 처리 |
모델 웨이트 포맷
MLX 모델은 4비트 또는 8비트 양자화 (그룹 크기 64)를 적용한 safetensors 포맷을 사용합니다. CoreML 모델은 컴파일된 .mlmodelc 포맷을 사용합니다. scripts/의 변환 스크립트가 PyTorch 체크포인트로부터 변환합니다.
| 모델 | 파라미터 | 양자화 | 디스크 크기 |
|---|---|---|---|
| Qwen3-ASR 0.6B (MLX) | 약 600M | 4비트 / 8비트 | 680 MB / 1.0 GB |
| Qwen3-ASR 0.6B (CoreML) | 약 186M (인코더) | INT8 | 약 180 MB |
| Qwen3-ASR 1.7B (MLX) | 약 1.7B | 4비트 / 8비트 | 2.1 GB / 3.2 GB |
| Parakeet-TDT 0.6B (CoreML) | 약 600M | INT8 | 500 MB |
| Parakeet-EOU 120M (CoreML) | 약 120M | INT8 | 약 120 MB |
| Omnilingual-ASR-CTC 300M (CoreML) | 326M | INT8 | 312 MB |
| Omnilingual-ASR-CTC 300M (MLX) | 326M | 4비트 / 8비트 | 193 MB / 342 MB |
| Omnilingual-ASR-CTC 1B (MLX) | 1.01B | 4비트 / 8비트 | 549 MB / 1006 MB |
| Omnilingual-ASR-CTC 3B (MLX) | 약 3B | 4비트 / 8비트 | 1.71 GB / 3.16 GB |
| Omnilingual-ASR-CTC 7B (MLX) | 약 7B | 4비트 / 8비트 | 3.55 GB / 6.63 GB |
| Qwen3-ForcedAligner 0.6B (MLX) | 약 600M | 4비트 / 8비트 | 979 MB / 1.4 GB |
| Qwen3-ForcedAligner 0.6B (CoreML) | 약 600M | INT4 / INT8 | 630 MB / 1.0 GB |
| Qwen3-TTS 0.6B (MLX) | 약 600M | 4비트 / 8비트 | 1.7 GB / 2.4 GB |
| Qwen3-TTS 1.7B (MLX) | 약 1.7B | 4비트 / 8비트 | 3.2 GB / 4.8 GB |
| CosyVoice3 0.5B (MLX) | 약 500M | 4비트 LLM | 약 1.2 GB |
| Kokoro-82M (CoreML) | 82M | INT8 (1 버킷) | 약 89 MB |
| Qwen3.5-Chat 0.8B (MLX) | 약 800M | INT4 | 418 MB |
| Qwen3.5-Chat 0.8B (CoreML) | 약 800M | INT8 | 981 MB |
| PersonaPlex 7B (MLX) | 약 7B | 4비트 / 8비트 | 4.9 GB / 9.1 GB |
| Pyannote VAD (MLX) | 약 1.49M | float32 | 약 5.7 MB |
| Silero VAD v5 | 약 309K | float32 | 약 1.2 MB (MLX 및 CoreML) |
| WeSpeaker ResNet34 | 약 6.6M | float32 | 약 25 MB (MLX 및 CoreML) |
| Sortformer (CoreML) | — | float16 | 약 50 MB |
| DeepFilterNet3 (CoreML) | 약 2.1M | FP16 | 약 4.2 MB |
성능 최적화
- MLX compile() — 자기회귀 루프를 위한 커널 융합. Talker는
compile(shapeless: true)를, Code Predictor는 고정 캐시 크기와 함께compile(shapeless: false)를 사용합니다. - Metal 셰이더 라이브러리 — 사전 컴파일된 metallib로 약 5배의 JIT 컴파일 오버헤드를 회피합니다.
scripts/build_mlx_metallib.sh로 빌드합니다. - 청크 단위 코덱 디코딩 — TTS 디코더는 GPU 타임아웃을 피하기 위해 25 프레임 청크와 10 프레임 컨텍스트 오버랩으로 오디오를 처리합니다.
- 배치 2배 CFG — CosyVoice3 DiT는 조건부 + 무조건부를 함께 배치 처리하여 flow matching 패스를 절반으로 줄입니다.
- 융합 RoPE — 수동 회전 대신 Metal 커널 기반
MLXNN.RoPE를 사용합니다. - BN 융합 — WeSpeaker 배치 정규화는 변환 시 Conv2d 가중치에 융합됩니다.
오디오 처리
모든 오디오 I/O는 Float32 PCM을 사용합니다. 내부 리샘플링이 포맷 변환을 처리합니다:
| 모델 | 요구 샘플레이트 | 포맷 |
|---|---|---|
| Qwen3-ASR | 16 kHz | 모노 Float32 |
| Qwen3-TTS | 24 kHz 출력 | 모노 Float32 |
| CosyVoice3 | 24 kHz 출력 | 모노 Float32 |
| Kokoro-82M | 24 kHz 출력 | 모노 Float32 |
| PersonaPlex | 24 kHz I/O | 모노 Float32 |
| Pyannote VAD | 16 kHz | 모노 Float32 |
| Silero VAD | 16 kHz | 모노 Float32 |
| WeSpeaker | 16 kHz | 모노 Float32 |
| DeepFilterNet3 | 48 kHz | 모노 Float32 |
소스 구조
Sources/
AudioCommon/ 공유 프로토콜, 오디오 I/O, HuggingFace 다운로더,
SentencePieceModel (protobuf 리더)
MLXCommon/ MLX 유틸리티: 웨이트 로딩, QuantizedLinear 헬퍼,
SDPA 멀티헤드 어텐션 헬퍼, metal budget
Qwen3Common/ 공유 모델 컴포넌트 (KV 캐시, RoPE, 양자화)
Qwen3ASR/ Qwen3-ASR 음성-텍스트 변환
ParakeetASR/ Parakeet TDT 음성-텍스트 변환 (CoreML)
ParakeetStreamingASR/ Parakeet EOU 120M 스트리밍 받아쓰기 (CoreML)
OmnilingualASR/ Meta wav2vec2 + CTC, 1,672개 언어
(CoreML 300M + MLX 300M / 1B / 3B / 7B)
Qwen3TTS/ Qwen3-TTS 텍스트-음성 변환
CosyVoiceTTS/ CosyVoice3 텍스트-음성 변환
KokoroTTS/ Kokoro-82M 텍스트-음성 변환 (CoreML)
Qwen3Chat/ Qwen3.5-0.8B 온디바이스 LLM 채팅 (MLX + CoreML)
PersonaPlex/ PersonaPlex 음성-음성 변환
SpeechVAD/ VAD (Silero + Pyannote), 화자 분리, 화자 임베딩
SpeechEnhancement/ DeepFilterNet3 노이즈 억제 (CoreML)
AudioCLILib/ CLI 명령 구현
AudioCLI/ CLI 진입점
scripts/ 모델 변환 (PyTorch → MLX/CoreML), 벤치마킹
Tests/ 단위 및 통합 테스트
Examples/ 데모 앱 (PersonaPlexDemo, SpeechDemo)