Speech Studio
ローカルで音声クローンとマルチスピーカーダイアログ生成を行うオープンソースの Mac アプリ。サンプル音声をドロップして声をクローンし、シーンを書いて合成 — すべてラップトップ上で。API キー不要、クラウド不要、文字単位の課金もありません。
30 秒のブラインドテスト:実際の声、Speech Studio が MacBook 上でローカルにクローンした同じ声、ElevenLabs がクラウドでクローンした同じ声。どれがどれかわかりますか?
できること
- 短い参照音声から声をクローン — 数秒の音声をドロップして、その声をローカルにクローン。
- マルチスピーカーのダイアログ生成 — 複数の話者を含むシーンを書いて、すべてを一回で合成。
- Mac 上で完全に動作 — MLX 経由で VoxCPM2、ノイズ抑制に DeepFilterNet3、ネットワーク不要。
- Apache 2.0 のオープンソース — フォーク、組み込み、拡張も自由。
動作要件
- macOS 15+(Sequoia 以降)
- Apple Silicon(M1、M2、M3、M4 シリーズ)
- 8 GB RAM 以上(16 GB 推奨)
- 音声クローンとノイズ抑制モデル用に約 3 GB のディスク容量(初回使用時に HuggingFace からダウンロード)
インストール
GitHub Releases から最新の .dmg をダウンロードし、開いて Speech Studio を /Applications にドラッグして起動します:
初回起動時に macOS Gatekeeper が開発元を確認できないと警告します — 公証済みビルドが出るまでは システム設定 → プライバシーとセキュリティ → このまま開く から開いてください。初回起動時には HuggingFace から ~/.cache/huggingface/hub/ に約 2.75 GB の VoxCPM2 重みもダウンロードされます。以降の起動ではキャッシュを再利用します。
同じ音声クローンパイプラインは speech CLI にも入っています: brew install soniqo/tap/speech の後 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — スクリプト化やバッチでの事前レンダーに便利です。完全な流れは音声クローンガイドを参照してください。
Speech Studio はアクティブプレビュー中(v0.0.2)です。ソースリポジトリ github.com/soniqo/speech-studio は GUI アプリを追跡しています。公証済みリリースの通知を受けるには star / watch してください。Linux と Windows は speech-core の LiteRT VoxCPM2 エンジン経由で現在ビルド可能ですが、デバイス上のランタイムは配線済みでハードウェア検証はまだです。
ベースとなる技術
Speech Studio は speech-swift 上の薄い GUI です。デモで使用されているモデルはすべて、このオープンソースの Swift ライブラリに含まれています:
- VoxCPM2 — 音声クローンモデル(ゼロショット、短い参照音声)
- DeepFilterNet3 — 参照音声とクローン出力のノイズ除去
- Qwen3-ASR — 音声をテキストに整合(デモのブラインドテスト構築パイプラインで使用)
- 強制アラインメント — 編集用の単語レベルのタイムスタンプ
- 音声クローン ガイド — パイプライン全体の概要
ロードマップ
- 今日: Mac(Apple Silicon)。
- 次: Linux(CUDA + CPU)、Windows。
- その後: より深い編集 UI、差し替え可能なクローンモデル用のプラグインサポート。
フィードバック
github.com/soniqo/speech-studio/issues で issue を開いてください — すべて目を通します。