Question 1

speech-swift는 iOS에서 작동하나요?

Accepted Answer

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3, WeSpeaker는 모두 Neural Engine의 CoreML을 통해 iOS 18+에서 실행됩니다. MLX 기반 모델(Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex)은 Apple Silicon에서 macOS 15+가 필요합니다.

Question 2

speech-swift를 사용하려면 인터넷 연결이 필요한가요?

Accepted Answer

HuggingFace에서 모델을 최초로 다운로드할 때만 필요합니다. 그 이후에는 모든 추론이 네트워크 접속 없이 완전히 오프라인으로 실행됩니다. 클라우드 API나 API 키가 필요 없습니다.

Question 3

speech-swift는 Whisper와 비교해 어떤가요?

Accepted Answer

Qwen3-ASR-0.6B는 M2 Max에서 RTF 0.06을 달성합니다 — whisper.cpp를 통한 Whisper-large-v3(RTF 0.10)보다 40% 빠르며 — 52개 언어에서 유사한 정확도를 제공합니다. speech-swift는 네이티브 Swift async/await API를 제공하는 반면 whisper.cpp는 C++ 브리지가 필요합니다.

Question 4

어떤 Apple Silicon 칩이 지원되나요?

Accepted Answer

모든 M 시리즈 칩: M1, M2, M3, M4와 각 Pro/Max/Ultra 변형. macOS 15+(Sequoia) 또는 iOS 18+가 필요합니다.

Question 5

왜 macOS 15 / iOS 18이 필요한가요?

Accepted Answer

이 최소 요구 사항은 Apple이 macOS 15와 iOS 18에서 도입한 영속적 ANE 상태 API인 MLState에서 비롯됩니다. CoreML 파이프라인(Qwen3-ASR, Qwen3-Chat, Qwen3-TTS)은 MLState를 사용해 KV 캐시를 토큰 스텝 간 Neural Engine에 상주시키며, 매 스텝마다 드나들 필요가 없습니다. 이로써 이전의 스테이트리스 방식에 비해 토큰당 CoreML 지연이 30–50% 줄어들었습니다.

Question 6

상용 앱에서 speech-swift를 사용할 수 있나요?

Accepted Answer

네. speech-swift는 Apache 2.0 라이선스로 배포됩니다. 기반이 되는 모델 가중치는 각각의 라이선스를 가지므로, 자세한 내용은 각 모델의 HuggingFace 페이지를 확인하세요.

Question 7

speech-swift는 메모리를 얼마나 사용하나요?

Accepted Answer

약 3 MB(Silero VAD)에서 약 6.5 GB(PersonaPlex 7B)까지입니다. Kokoro TTS는 약 200 MB, Qwen3-ASR은 약 2.2 GB, Qwen3-TTS는 약 2 GB를 사용합니다. 여러 모델을 Neural Engine의 CoreML과 GPU의 MLX에서 동시에 실행할 수 있습니다.

Question 8

여러 모델을 동시에 실행할 수 있나요?

Accepted Answer

네. 경합을 피하기 위해 Neural Engine의 CoreML 모델과 GPU의 MLX 모델을 함께 사용하세요 — 예를 들어, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX) 조합이 가능합니다.

Question 9

REST API가 있나요?

Accepted Answer

네. speech-server 바이너리는 모든 모델을 HTTP REST 및 WebSocket 엔드포인트로 공개하며, /v1/realtime에 OpenAI Realtime API 호환 WebSocket도 포함합니다.

Question 10

speech-swift는 어떻게 설치하나요?

Accepted Answer

Homebrew를 통해: brew install soniqo/tap/speech. 또는 Swift Package Manager 의존성으로 추가: .package(url: "https://github.com/soniqo/speech-swift", branch: "main").

Question 11

어떤 음성 모델을 사용할 수 있나요?

Accepted Answer

음성-텍스트: Qwen3-ASR (52개 언어), Parakeet TDT (25개 언어). 텍스트-음성: Qwen3-TTS (스트리밍, 10개 언어), CosyVoice3 (음성 복제, 9개 언어), Kokoro-82M (iOS 지원, 50개 음색). 음성-음성: PersonaPlex 7B (full-duplex). 추가: Silero/Pyannote VAD, 화자 분리 (Pyannote + Sortformer), WeSpeaker 화자 임베딩, DeepFilterNet3 노이즈 억제.

Question 12

Soniqo는 Android에서 작동하나요?

Accepted Answer

네. speech-android SDK는 ONNX Runtime과 NNAPI 가속을 사용하는 Kotlin API를 제공합니다. Android 8+ (API 26)의 arm64-v8a를 지원합니다. 모델은 최초 사용 시 HuggingFace에서 자동 다운로드됩니다.

Question 13

Soniqo는 Linux에서 작동하나요?

Accepted Answer

네. speech-core 프로젝트는 examples/linux에 임베디드 및 자동차 Linux용 C API를 포함합니다. ONNX Runtime을 사용하며 Qualcomm 하드웨어용 QNN 가속을 선택적으로 지원합니다. ARM64 및 x86_64를 지원합니다.

Question 14

플랫폼 간에 모델을 공유할 수 있나요?

Accepted Answer

핵심 모델(Parakeet, Kokoro, Silero, DeepFilter)은 Android와 Linux 모두에서 ONNX 형식을 사용합니다. Apple은 CoreML/MLX 형식을 사용합니다. 기반 가중치는 동일하며 내보내기 형식만 다릅니다.

자주 묻는 질문