Speech Studio
开源 Mac 应用,本地进行语音克隆和多人对话合成。投入一段参考音频、克隆音色、编写台词、合成 — 全部在你的笔记本上。无需 API 密钥、无云端、无按字符计费。
30 秒盲测:真实声音、由 Speech Studio 在 MacBook 上本地克隆的同一声音,以及由 ElevenLabs 在云端克隆的同一声音。你能分辨出哪个是哪个吗?
功能介绍
- 从短参考片段克隆语音 — 投入几秒的语音,即可在本地克隆该音色。
- 多人对话合成 — 编写包含多个说话人的场景,一次合成所有角色。
- 完全在 Mac 上运行 — 通过 MLX 运行 VoxCPM2,DeepFilterNet3 进行降噪,无需联网。
- Apache 2.0 开源 — 你可以 fork、嵌入、二次开发。
运行要求
- macOS 15+(Sequoia 或更高版本)
- Apple Silicon(M1、M2、M3、M4 系列)
- 至少 8 GB 内存(推荐 16 GB)
- 约 3 GB 磁盘空间用于语音克隆和降噪模型(首次使用时从 HuggingFace 下载)
安装
从 GitHub Releases 下载最新的 .dmg,打开它,将 Speech Studio 拖入 /Applications,然后启动:
首次启动时 macOS Gatekeeper 会提示无法验证开发者 — 在 系统设置 → 隐私与安全性 → 仍要打开 中开启,直到正式签名版本发布。首次运行还会从 HuggingFace 下载约 2.75 GB 的 VoxCPM2 权重至 ~/.cache/huggingface/hub/;后续运行会复用缓存。
相同的语音克隆流水线也包含在 speech CLI 中:brew install soniqo/tap/speech,然后 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — 适合脚本化或批量预渲染。完整流程请参阅语音克隆指南。
Speech Studio 处于活跃预览阶段(v0.0.2)。源码仓库 github.com/soniqo/speech-studio 跟踪此 GUI 应用;点 star/watch 即可接收签名版本发布通知。Linux 和 Windows 现已可通过 speech-core 的 LiteRT VoxCPM2 引擎构建;设备端运行时已接入但尚未硬件验证。
底层技术
Speech Studio 是基于 speech-swift 的轻量 GUI,该开源 Swift 库提供了 demo 中使用的全部模型:
- VoxCPM2 — 语音克隆模型(零样本,短参考片段)
- DeepFilterNet3 — 为参考音频和克隆输出降噪
- Qwen3-ASR — 将语音对齐到文本(用于 demo 的盲测构建流水线)
- 强制对齐 — 单词级时间戳,便于编辑
- 语音克隆 指南 — 完整流水线概览
路线图
- 今天: Mac(Apple Silicon)。
- 下一步: Linux(CUDA + CPU)、Windows。
- 之后: 更深入的编辑界面,可插拔克隆模型的插件支持。
反馈
在 github.com/soniqo/speech-studio/issues 提交 issue — 每一条都会被认真阅读。