자주 묻는 질문
speech-swift는 iOS에서 작동하나요?
Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3, WeSpeaker는 모두 Neural Engine의 CoreML을 통해 iOS 17+에서 실행됩니다. MLX 기반 모델(Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex)은 Apple Silicon에서 macOS 14+가 필요합니다.
인터넷 연결이 필요한가요?
HuggingFace에서 모델을 최초로 다운로드할 때만 필요합니다(자동, ~/Library/Caches/qwen3-speech/에 캐시). 그 이후에는 모든 추론이 네트워크 접속 없이 완전히 오프라인으로 실행됩니다. 클라우드 API나 API 키가 필요 없습니다.
speech-swift는 Whisper와 비교해 어떤가요?
Qwen3-ASR-0.6B는 M2 Max에서 RTF 0.06을 달성합니다 — whisper.cpp를 통한 Whisper-large-v3(RTF 0.10)보다 40% 빠르며 — 52개 언어에서 유사한 정확도를 제공합니다. speech-swift는 네이티브 Swift async/await API를 제공하는 반면 whisper.cpp는 C++ 브리지가 필요합니다.
whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer 및 클라우드 API와의 ASR 및 TTS 벤치마크 전체 비교는 비교 테이블을 참조하세요.
어떤 Apple Silicon 칩이 지원되나요?
모든 M 시리즈 칩: M1, M2, M3, M4와 각 Pro/Max/Ultra 변형. macOS 14+(Sonoma) 또는 iOS 17+가 필요합니다.
상용 앱에서 사용할 수 있나요?
네. speech-swift는 Apache 2.0 라이선스로 배포됩니다. 기반이 되는 모델 가중치는 각각의 라이선스를 가지므로 — 자세한 내용은 각 모델의 HuggingFace 페이지를 확인하세요.
메모리는 얼마나 필요한가요?
약 3 MB(Silero VAD)에서 약 6.5 GB(PersonaPlex 7B)까지입니다. 일반적인 사용량:
- Kokoro TTS: 약 200 MB (버킷 1개)
- Qwen3-ASR 0.6B: 약 2.2 GB
- Qwen3-TTS 0.6B: 약 2 GB
- Qwen3.5-Chat 0.8B: 약 700 MB (INT4 MLX) / 약 1.2 GB (INT8 CoreML)
- CosyVoice3: 약 1.5 GB
- Parakeet TDT: 약 400 MB
여러 모델을 동시에 실행할 수 있나요?
네. 경합을 피하기 위해 Neural Engine의 CoreML 모델과 GPU의 MLX 모델을 함께 사용하세요 — 예를 들어, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX) 조합이 가능합니다.
REST API가 있나요?
네. audio-server 바이너리는 모든 모델을 HTTP REST 및 WebSocket 엔드포인트로 공개하며, /v1/realtime에 OpenAI Realtime API 호환 WebSocket도 포함합니다. 서버 명령어는 CLI 레퍼런스를 참조하세요.
어떻게 설치하나요?
Homebrew:
brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speechSwift Package Manager:
.package(url: "https://github.com/soniqo/speech-swift", branch: "main")전체 설치 지침은 시작하기 가이드를 참조하세요.
어떤 음성 모델을 사용할 수 있나요?
음성-텍스트: Qwen3-ASR (52개 언어, MLX), Parakeet TDT (25개 언어, CoreML).
텍스트-음성: Qwen3-TTS (스트리밍, 10개 언어), CosyVoice3 (음성 복제, 9개 언어), Kokoro-82M (iOS 지원, 50개 음색, 10개 언어).
음성-음성: PersonaPlex 7B (full-duplex 대화, 18개 음색 프리셋).
오디오 분석: Silero + Pyannote VAD, 화자 분리 (Pyannote + Sortformer), WeSpeaker 화자 임베딩, DeepFilterNet3 노이즈 억제.
LLM: Qwen3.5-0.8B Chat (온디바이스, INT4 MLX + INT8 CoreML, 스트리밍 토큰).
Soniqo는 Android에서 작동하나요?
네. speech-android SDK는 ONNX Runtime과 NNAPI 하드웨어 가속을 사용하는 Kotlin API를 제공합니다. Android 8+ (API 26)의 arm64-v8a를 지원합니다. 모델은 최초 사용 시 HuggingFace에서 자동 다운로드됩니다 (약 1.2 GB). 설정 지침은 시작하기 — Android를 참조하세요.
Soniqo는 Linux에서 작동하나요?
네. speech-android 프로젝트는 임베디드 및 자동차 Linux(Yocto, 엣지 디바이스)용 C API를 포함합니다. ONNX Runtime을 사용하며 Qualcomm 하드웨어용 QNN 가속을 선택적으로 지원합니다. ARM64와 x86_64를 지원합니다. 설정 지침은 시작하기 — Linux를 참조하세요.
플랫폼 간에 모델을 공유할 수 있나요?
핵심 모델(Parakeet, Kokoro, Silero, DeepFilter)은 Android와 Linux 모두에서 ONNX 형식을 사용합니다. Apple은 CoreML/MLX 형식을 사용합니다. 기반 가중치는 동일하며 내보내기 형식만 각 플랫폼의 하드웨어 가속에 최적화되어 있습니다.