Speech Studio

开源 Mac 应用,本地进行语音克隆和多人对话合成。投入一段参考音频、克隆音色、编写台词、合成 — 全部在你的笔记本上。无需 API 密钥、无云端、无按字符计费。

30 秒盲测:真实声音、由 Speech Studio 在 MacBook 上本地克隆的同一声音,以及由 ElevenLabs 在云端克隆的同一声音。你能分辨出哪个是哪个吗?

功能介绍

运行要求

安装

从 GitHub Releases 下载最新的 .dmg,打开它,将 Speech Studio 拖入 /Applications,然后启动:

首次启动时 macOS Gatekeeper 会提示无法验证开发者 — 在 系统设置 → 隐私与安全性 → 仍要打开 中开启,直到正式签名版本发布。首次运行还会从 HuggingFace 下载约 2.75 GB 的 VoxCPM2 权重至 ~/.cache/huggingface/hub/;后续运行会复用缓存。

更喜欢命令行?

相同的语音克隆流水线也包含在 speech CLI 中:brew install soniqo/tap/speech,然后 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — 适合脚本化或批量预渲染。完整流程请参阅语音克隆指南

状态

Speech Studio 处于活跃预览阶段(v0.0.2)。源码仓库 github.com/soniqo/speech-studio 跟踪此 GUI 应用;点 star/watch 即可接收签名版本发布通知。Linux 和 Windows 现已可通过 speech-core 的 LiteRT VoxCPM2 引擎构建;设备端运行时已接入但尚未硬件验证。

底层技术

Speech Studio 是基于 speech-swift 的轻量 GUI,该开源 Swift 库提供了 demo 中使用的全部模型:

路线图

反馈

github.com/soniqo/speech-studio/issues 提交 issue — 每一条都会被认真阅读。