Speech Studio

ローカルで音声クローンとマルチスピーカーダイアログ生成を行うオープンソースの Mac アプリ。サンプル音声をドロップして声をクローンし、シーンを書いて合成 — すべてラップトップ上で。API キー不要、クラウド不要、文字単位の課金もありません。

30 秒のブラインドテスト:実際の声、Speech Studio が MacBook 上でローカルにクローンした同じ声、ElevenLabs がクラウドでクローンした同じ声。どれがどれかわかりますか?

できること

動作要件

インストール

GitHub Releases から最新の .dmg をダウンロードし、開いて Speech Studio/Applications にドラッグして起動します:

初回起動時に macOS Gatekeeper が開発元を確認できないと警告します — 公証済みビルドが出るまでは システム設定 → プライバシーとセキュリティ → このまま開く から開いてください。初回起動時には HuggingFace から ~/.cache/huggingface/hub/ に約 2.75 GB の VoxCPM2 重みもダウンロードされます。以降の起動ではキャッシュを再利用します。

CLI 派ですか?

同じ音声クローンパイプラインは speech CLI にも入っています: brew install soniqo/tap/speech の後 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — スクリプト化やバッチでの事前レンダーに便利です。完全な流れは音声クローンガイドを参照してください。

ステータス

Speech Studio はアクティブプレビュー中(v0.0.2)です。ソースリポジトリ github.com/soniqo/speech-studio は GUI アプリを追跡しています。公証済みリリースの通知を受けるには star / watch してください。Linux と Windows は speech-core の LiteRT VoxCPM2 エンジン経由で現在ビルド可能ですが、デバイス上のランタイムは配線済みでハードウェア検証はまだです。

ベースとなる技術

Speech Studio は speech-swift 上の薄い GUI です。デモで使用されているモデルはすべて、このオープンソースの Swift ライブラリに含まれています:

ロードマップ

フィードバック

github.com/soniqo/speech-studio/issues で issue を開いてください — すべて目を通します。