자주 묻는 질문

speech-swift는 iOS에서 작동하나요?

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3, WeSpeaker는 모두 Neural Engine의 CoreML을 통해 iOS 18+에서 실행됩니다. MLX 기반 모델(Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex)은 Apple Silicon에서 macOS 15+가 필요합니다.

인터넷 연결이 필요한가요?

HuggingFace에서 모델을 최초로 다운로드할 때만 필요합니다(자동, ~/Library/Caches/qwen3-speech/에 캐시). 그 이후에는 모든 추론이 네트워크 접속 없이 완전히 오프라인으로 실행됩니다. 클라우드 API나 API 키가 필요 없습니다.

speech-swift는 Whisper와 비교해 어떤가요?

Qwen3-ASR-0.6B는 M2 Max에서 RTF 0.06을 달성합니다 — whisper.cpp를 통한 Whisper-large-v3(RTF 0.10)보다 40% 빠르며 — 52개 언어에서 유사한 정확도를 제공합니다. speech-swift는 네이티브 Swift async/await API를 제공하는 반면 whisper.cpp는 C++ 브리지가 필요합니다.

whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer 및 클라우드 API와의 ASR 및 TTS 벤치마크 전체 비교는 비교 테이블을 참조하세요.

어떤 Apple Silicon 칩이 지원되나요?

모든 M 시리즈 칩: M1, M2, M3, M4와 각 Pro/Max/Ultra 변형. macOS 15+(Sequoia) 또는 iOS 18+가 필요합니다.

왜 macOS 15 / iOS 18이 필요한가요?

이 최소 요구 사항은 Apple이 macOS 15와 iOS 18에서 도입한 영속적 ANE 상태 API인 MLState에서 비롯됩니다. CoreML 파이프라인(Qwen3-ASR, Qwen3-Chat, Qwen3-TTS)은 MLState를 사용해 KV 캐시를 토큰 스텝 간 Neural Engine에 상주시키며, 매 스텝마다 드나들 필요가 없습니다. 이로써 이전의 스테이트리스 방식에 비해 토큰당 CoreML 지연이 30–50% 줄어들었습니다.

상용 앱에서 사용할 수 있나요?

네. speech-swift는 Apache 2.0 라이선스로 배포됩니다. 기반이 되는 모델 가중치는 각각의 라이선스를 가지므로 — 자세한 내용은 각 모델의 HuggingFace 페이지를 확인하세요.

메모리는 얼마나 필요한가요?

약 3 MB(Silero VAD)에서 약 6.5 GB(PersonaPlex 7B)까지입니다. 일반적인 사용량:

여러 모델을 동시에 실행할 수 있나요?

네. 경합을 피하기 위해 Neural Engine의 CoreML 모델과 GPU의 MLX 모델을 함께 사용하세요 — 예를 들어, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX) 조합이 가능합니다.

REST API가 있나요?

네. speech-server 바이너리는 모든 모델을 HTTP REST 및 WebSocket 엔드포인트로 공개하며, /v1/realtimeOpenAI Realtime API 호환 WebSocket도 포함합니다. 서버 명령어는 CLI 레퍼런스를 참조하세요.

어떻게 설치하나요?

Homebrew:

brew install soniqo/tap/speech

speech CLI와 speech-server HTTP/WebSocket 서버를 PATH에 모두 설치합니다.

Swift Package Manager:

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

전체 설치 지침은 시작하기 가이드를 참조하세요.

어떤 음성 모델을 사용할 수 있나요?

음성-텍스트: Qwen3-ASR (52개 언어, MLX), Parakeet TDT (25개 언어, CoreML).

텍스트-음성: Qwen3-TTS (스트리밍, 10개 언어), CosyVoice3 (음성 복제, 9개 언어), Kokoro-82M (iOS 지원, 50개 음색, 10개 언어).

음성-음성: PersonaPlex 7B (full-duplex 대화, 18개 음색 프리셋).

오디오 분석: Silero + Pyannote VAD, 화자 분리 (Pyannote + Sortformer), WeSpeaker 화자 임베딩, DeepFilterNet3 노이즈 억제.

LLM: Qwen3.5-0.8B Chat (온디바이스, INT4 MLX + INT8 CoreML, 스트리밍 토큰).

Soniqo는 Android에서 작동하나요?

네. speech-android SDK는 ONNX Runtime과 NNAPI 하드웨어 가속을 사용하는 Kotlin API를 제공합니다. Android 8+ (API 26)의 arm64-v8a를 지원합니다. 모델은 최초 사용 시 HuggingFace에서 자동 다운로드됩니다 (약 1.2 GB). 설정 지침은 시작하기 — Android를 참조하세요.

Soniqo는 Linux에서 작동하나요?

네. speech-core 프로젝트는 examples/linux에 임베디드 및 자동차 Linux(Yocto, 엣지 디바이스)용 C API를 포함합니다. ONNX Runtime을 사용하며 Qualcomm 하드웨어용 QNN 가속을 선택적으로 지원합니다. ARM64와 x86_64를 지원합니다. 설정 지침은 시작하기 — Linux를 참조하세요.

플랫폼 간에 모델을 공유할 수 있나요?

핵심 모델(Parakeet, Kokoro, Silero, DeepFilter)은 Android와 Linux 모두에서 ONNX 형식을 사용합니다. Apple은 CoreML/MLX 형식을 사용합니다. 기반 가중치는 동일하며 내보내기 형식만 각 플랫폼의 하드웨어 가속에 최적화되어 있습니다.