Question 1

speech-swiftはiOSで動作しますか？

Accepted Answer

Kokoro TTS、Qwen3.5-Chat、Silero VAD、Parakeet ASR、DeepFilterNet3、WeSpeakerはすべてiOS 18+でNeural Engine上のCoreMLを介して動作します。MLXベースのモデル（Qwen3-ASR、Qwen3-TTS、Qwen3.5-Chat MLX、PersonaPlex）はApple Silicon上のmacOS 15+を必要とします。

Question 2

speech-swiftはインターネット接続を必要としますか？

Accepted Answer

HuggingFaceからの初回のモデルダウンロード時のみ必要です。その後、すべての推論はネットワークアクセスなしで完全にオフラインで実行されます。クラウドAPIもAPIキーも不要です。

Question 3

speech-swiftはWhisperと比較してどうですか？

Accepted Answer

Qwen3-ASR-0.6BはM2 MaxでRTF 0.06を達成し、whisper.cpp経由のWhisper-large-v3（RTF 0.10）より40%高速で、52言語にわたって同等の精度を実現します。speech-swiftはネイティブSwift async/await APIを提供しますが、whisper.cppはC++ブリッジを必要とします。

Question 4

どのApple Siliconチップがサポートされていますか？

Accepted Answer

すべてのMシリーズチップ: M1、M2、M3、M4およびそれらのPro/Max/Ultraバリアント。macOS 15+（Sequoia）またはiOS 18+が必要です。

Question 5

なぜ macOS 15 / iOS 18 が必要ですか？

Accepted Answer

最小要件は MLState —— Apple が macOS 15 と iOS 18 で導入した永続的 ANE ステート API —— に由来します。CoreML パイプライン（Qwen3-ASR、Qwen3-Chat、Qwen3-TTS）は MLState を使って、トークンステップ間で KV キャッシュを Neural Engine 上に常駐させ、ステップごとに出し入れする必要がありません。これにより、トークンあたりの CoreML レイテンシが以前のステートレス方式と比べて 30〜50% 削減されました。

Question 6

商用アプリでspeech-swiftを使用できますか？

Accepted Answer

はい。speech-swiftはApache 2.0ライセンスの下で提供されています。基礎となるモデルウェイトには独自のライセンスがあります — 詳細は各モデルのHuggingFaceページを確認してください。

Question 7

speech-swiftはどれくらいのメモリを必要としますか？

Accepted Answer

約3 MB（Silero VAD）から約6.5 GB（PersonaPlex 7B）まで。Kokoro TTSは約200 MB、Qwen3-ASRは約2.2 GB、Qwen3-TTSは約2 GBを使用します。Neural Engine上のCoreMLとGPU上のMLXを併用することで、複数のモデルを同時に実行できます。

Question 8

複数のモデルを同時に実行できますか？

Accepted Answer

はい。競合を避けるために、Neural Engine上のCoreMLモデルとGPU上のMLXモデルを併用してください — 例: Silero VAD（CoreML）+ Qwen3-ASR（MLX）+ Qwen3-TTS（MLX）。

Question 9

REST APIはありますか？

Accepted Answer

はい。speech-serverバイナリは、すべてのモデルをHTTP RESTおよびWebSocketエンドポイントで公開します。/v1/realtimeでOpenAI Realtime API互換のWebSocketも含まれます。

Question 10

speech-swiftのインストール方法は？

Accepted Answer

Homebrew経由: brew install soniqo/tap/speech。またはSwift Package Manager依存関係として追加: .package(url: "https://github.com/soniqo/speech-swift", branch: "main")。

Question 11

利用可能な音声モデルは何ですか？

Accepted Answer

音声認識: Qwen3-ASR（52言語）とParakeet TDT（25言語）。音声合成: Qwen3-TTS（streaming、10言語）、CosyVoice3（音声クローン、9言語）、Kokoro-82M（iOS対応、50ボイス）。音声間変換: PersonaPlex 7B（full-duplex）。その他: Silero/Pyannote VAD、話者ダイアライゼーション（Pyannote + Sortformer）、WeSpeaker話者embedding、DeepFilterNet3ノイズ抑制。

Question 12

SoniqoはAndroidで動作しますか？

Accepted Answer

はい。speech-android SDKは、ONNX RuntimeとNNAPIアクセラレーションを備えたKotlin APIを提供します。Android 8+（API 26）でarm64-v8aをサポートします。モデルは初回使用時にHuggingFaceから自動ダウンロードされます。

Question 13

SoniqoはLinuxで動作しますか？

Accepted Answer

はい。speech-coreプロジェクトには、組み込みおよび車載Linux向けのC APIがexamples/linuxに含まれています。ONNX Runtimeを使用し、Qualcommハードウェア向けのQNNアクセラレーションをオプションで利用できます。ARM64とx86_64をサポートします。

Question 14

モデルをプラットフォーム間で共有できますか？

Accepted Answer

コアモデル（Parakeet、Kokoro、Silero、DeepFilter）は、AndroidとLinuxの両方でONNX形式を使用します。AppleはCoreML/MLX形式を使用します。同じ基礎ウェイト、異なるエクスポート形式です。

よくある質問