よくある質問
speech-swiftはiOSで動作しますか?
Kokoro TTS、Qwen3.5-Chat、Silero VAD、Parakeet ASR、DeepFilterNet3、WeSpeakerはすべてiOS 18+でNeural Engine上のCoreMLを介して動作します。MLXベースのモデル(Qwen3-ASR、Qwen3-TTS、Qwen3.5-Chat MLX、PersonaPlex)はApple Silicon上のmacOS 15+を必要とします。
インターネット接続は必要ですか?
HuggingFaceからの初回のモデルダウンロード時のみ必要です(自動、~/Library/Caches/qwen3-speech/にキャッシュ)。その後、すべての推論はネットワークアクセスなしで完全にオフラインで実行されます。クラウドAPIもAPIキーも不要です。
speech-swiftはWhisperと比較してどうですか?
Qwen3-ASR-0.6BはM2 MaxでRTF 0.06を達成し、whisper.cpp経由のWhisper-large-v3(RTF 0.10)より40%高速で、52言語にわたって同等の精度を実現します。speech-swiftはネイティブSwiftのasync/await APIを提供しますが、whisper.cppはC++ブリッジを必要とします。
whisper.cpp、Apple SFSpeechRecognizer、AVSpeechSynthesizer、クラウドAPIに対するASRおよびTTSベンチマークの完全な比較表をご覧ください。
どのApple Siliconチップがサポートされていますか?
すべてのMシリーズチップ: M1、M2、M3、M4およびそれらのPro/Max/Ultraバリアント。macOS 15+(Sequoia)またはiOS 18+が必要です。
なぜ macOS 15 / iOS 18 が必要ですか?
最小要件は MLState —— Apple が macOS 15 と iOS 18 で導入した永続的 ANE ステート API —— に由来します。CoreML パイプライン(Qwen3-ASR、Qwen3-Chat、Qwen3-TTS)は MLState を使って、トークンステップ間で KV キャッシュを Neural Engine 上に常駐させ、ステップごとに出し入れする必要がありません。これにより、トークンあたりの CoreML レイテンシが以前のステートレス方式と比べて 30〜50% 削減されました。
商用アプリで使用できますか?
はい。speech-swiftはApache 2.0ライセンスの下で提供されています。基礎となるモデルウェイトには独自のライセンスがあります — 詳細は各モデルのHuggingFaceページを確認してください。
どれくらいのメモリが必要ですか?
約3 MB(Silero VAD)から約6.5 GB(PersonaPlex 7B)まで。典型的な使用量:
- Kokoro TTS: 約200 MB(1 bucket)
- Qwen3-ASR 0.6B: 約2.2 GB
- Qwen3-TTS 0.6B: 約2 GB
- Qwen3.5-Chat 0.8B: 約700 MB(INT4 MLX)/ 約1.2 GB(INT8 CoreML)
- CosyVoice3: 約1.5 GB
- Parakeet TDT: 約400 MB
複数のモデルを同時に実行できますか?
はい。競合を避けるために、Neural Engine上のCoreMLモデルとGPU上のMLXモデルを併用してください — 例: Silero VAD(CoreML)+ Qwen3-ASR(MLX)+ Qwen3-TTS(MLX)。
REST APIはありますか?
はい。speech-serverバイナリは、すべてのモデルをHTTP RESTおよびWebSocketエンドポイントで公開します。/v1/realtimeでOpenAI Realtime API互換のWebSocketも含まれます。サーバーコマンドについてはCLIリファレンスをご覧ください。
インストール方法は?
Homebrew:
brew install soniqo/tap/speechspeech CLI と speech-server HTTP/WebSocket サーバーの両方を PATH にインストールします。
Swift Package Manager:
.package(url: "https://github.com/soniqo/speech-swift", branch: "main")完全な手順についてははじめにガイドをご覧ください。
利用可能な音声モデルは何ですか?
音声認識: Qwen3-ASR(52言語、MLX)とParakeet TDT(25言語、CoreML)。
音声合成: Qwen3-TTS(streaming、10言語)、CosyVoice3(音声クローン、9言語)、Kokoro-82M(iOS対応、50ボイス、10言語)。
音声間変換: PersonaPlex 7B(full-duplex対話、18種類のボイスプリセット)。
音声解析: Silero + Pyannote VAD、話者ダイアライゼーション(Pyannote + Sortformer)、WeSpeaker話者embedding、DeepFilterNet3ノイズ抑制。
LLM: Qwen3.5-0.8B Chat(オンデバイス、INT4 MLX + INT8 CoreML、streamingトークン)。
SoniqoはAndroidで動作しますか?
はい。speech-android SDKは、ONNX RuntimeとNNAPIハードウェアアクセラレーションを備えたKotlin APIを提供します。Android 8+(API 26)でarm64-v8aをサポートします。モデルは初回使用時にHuggingFaceから自動ダウンロードされます(約1.2 GB)。セットアップ手順についてははじめに — Androidをご覧ください。
SoniqoはLinuxで動作しますか?
はい。speech-coreプロジェクトには、組み込みおよび車載Linux(Yocto、エッジデバイス)向けのC APIがexamples/linuxに含まれています。ONNX Runtimeを使用し、Qualcommハードウェア向けのQNNアクセラレーションをオプションで利用できます。ARM64とx86_64をサポートします。セットアップ手順についてははじめに — Linuxをご覧ください。
モデルをプラットフォーム間で共有できますか?
コアモデル(Parakeet、Kokoro、Silero、DeepFilter)は、AndroidとLinuxの両方でONNX形式を使用します。AppleはCoreML/MLX形式を使用します。同じ基礎ウェイト、各プラットフォームのハードウェアアクセラレーションに最適化された異なるエクスポート形式です。