よくある質問

speech-swiftはiOSで動作しますか?

Kokoro TTS、Qwen3.5-Chat、Silero VAD、Parakeet ASR、DeepFilterNet3、WeSpeakerはすべてiOS 17+でNeural Engine上のCoreMLを介して動作します。MLXベースのモデル(Qwen3-ASR、Qwen3-TTS、Qwen3.5-Chat MLX、PersonaPlex)はApple Silicon上のmacOS 14+を必要とします。

インターネット接続は必要ですか?

HuggingFaceからの初回のモデルダウンロード時のみ必要です(自動、~/Library/Caches/qwen3-speech/にキャッシュ)。その後、すべての推論はネットワークアクセスなしで完全にオフラインで実行されます。クラウドAPIもAPIキーも不要です。

speech-swiftはWhisperと比較してどうですか?

Qwen3-ASR-0.6BはM2 MaxでRTF 0.06を達成し、whisper.cpp経由のWhisper-large-v3(RTF 0.10)より40%高速で、52言語にわたって同等の精度を実現します。speech-swiftはネイティブSwiftのasync/await APIを提供しますが、whisper.cppはC++ブリッジを必要とします。

whisper.cpp、Apple SFSpeechRecognizer、AVSpeechSynthesizer、クラウドAPIに対するASRおよびTTSベンチマークの完全な比較表をご覧ください。

どのApple Siliconチップがサポートされていますか?

すべてのMシリーズチップ: M1、M2、M3、M4およびそれらのPro/Max/Ultraバリアント。macOS 14+(Sonoma)またはiOS 17+が必要です。

商用アプリで使用できますか?

はい。speech-swiftはApache 2.0ライセンスの下で提供されています。基礎となるモデルウェイトには独自のライセンスがあります — 詳細は各モデルのHuggingFaceページを確認してください。

どれくらいのメモリが必要ですか?

約3 MB(Silero VAD)から約6.5 GB(PersonaPlex 7B)まで。典型的な使用量:

複数のモデルを同時に実行できますか?

はい。競合を避けるために、Neural Engine上のCoreMLモデルとGPU上のMLXモデルを併用してください — 例: Silero VAD(CoreML)+ Qwen3-ASR(MLX)+ Qwen3-TTS(MLX)。

REST APIはありますか?

はい。audio-serverバイナリは、すべてのモデルをHTTP RESTおよびWebSocketエンドポイントで公開します。/v1/realtimeOpenAI Realtime API互換のWebSocketも含まれます。サーバーコマンドについてはCLIリファレンスをご覧ください。

インストール方法は?

Homebrew:

brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speech

Swift Package Manager:

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

完全な手順についてははじめにガイドをご覧ください。

利用可能な音声モデルは何ですか?

音声認識: Qwen3-ASR(52言語、MLX)とParakeet TDT(25言語、CoreML)。

音声合成: Qwen3-TTS(streaming、10言語)、CosyVoice3(音声クローン、9言語)、Kokoro-82M(iOS対応、50ボイス、10言語)。

音声間変換: PersonaPlex 7B(full-duplex対話、18種類のボイスプリセット)。

音声解析: Silero + Pyannote VAD、話者ダイアライゼーション(Pyannote + Sortformer)、WeSpeaker話者embedding、DeepFilterNet3ノイズ抑制。

LLM: Qwen3.5-0.8B Chat(オンデバイス、INT4 MLX + INT8 CoreML、streamingトークン)。

SoniqoはAndroidで動作しますか?

はい。speech-android SDKは、ONNX RuntimeとNNAPIハードウェアアクセラレーションを備えたKotlin APIを提供します。Android 8+(API 26)でarm64-v8aをサポートします。モデルは初回使用時にHuggingFaceから自動ダウンロードされます(約1.2 GB)。セットアップ手順についてははじめに — Androidをご覧ください。

SoniqoはLinuxで動作しますか?

はい。speech-androidプロジェクトには、組み込みおよび車載Linux(Yocto、エッジデバイス)向けのC APIが含まれています。ONNX Runtimeを使用し、Qualcommハードウェア向けのQNNアクセラレーションをオプションで利用できます。ARM64とx86_64をサポートします。セットアップ手順についてははじめに — Linuxをご覧ください。

モデルをプラットフォーム間で共有できますか?

コアモデル(Parakeet、Kokoro、Silero、DeepFilter)は、AndroidとLinuxの両方でONNX形式を使用します。AppleはCoreML/MLX形式を使用します。同じ基礎ウェイト、各プラットフォームのハードウェアアクセラレーションに最適化された異なるエクスポート形式です。