Speech Studio
Open-source Mac-приложение для локального клонирования голоса и генерации диалогов с несколькими спикерами. Перетащите образец голоса, клонируйте, напишите сцену, синтезируйте — всё на вашем ноутбуке. Без API-ключей, без облака, без оплаты за символы.
30-секундный слепой тест: реальный голос, тот же голос, клонированный локально Speech Studio на MacBook, и тот же голос, клонированный ElevenLabs в облаке. Сможете отличить?
Что умеет
- Клонирование голоса по короткому образцу — перетащите несколько секунд речи, клонируйте голос локально.
- Генерация многоспикерных диалогов — напишите сцену с несколькими спикерами, синтезируйте всех за один проход.
- Работает полностью на вашем Mac — VoxCPM2 через MLX, DeepFilterNet3 для шумоподавления, без сети.
- Open source под Apache 2.0 — форкайте, встраивайте, развивайте.
Требования
- macOS 15+ (Sequoia или новее)
- Apple Silicon (серии M1, M2, M3, M4)
- Минимум 8 ГБ ОЗУ (рекомендуется 16 ГБ)
- ~3 ГБ на диске для моделей клонирования и шумоподавления (скачиваются с HuggingFace при первом запуске)
Установка
Скачайте свежий .dmg с GitHub Releases, откройте его, перетащите Speech Studio в /Applications и запустите:
При первом запуске macOS Gatekeeper предупредит, что разработчик не верифицирован — откройте через Системные настройки → Конфиденциальность и безопасность → Открыть всё равно до появления нотаризованных сборок. Также при первом запуске скачается ~2,75 ГБ весов VoxCPM2 с HuggingFace в ~/.cache/huggingface/hub/; последующие запуски используют кэш.
Тот же конвейер клонирования есть в CLI speech: brew install soniqo/tap/speech, затем speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — удобно для скриптов и батч-предрендеринга. Полный поток смотрите в руководстве по клонированию голоса.
Speech Studio в активном превью (v0.0.2). Репозиторий github.com/soniqo/speech-studio отслеживает GUI-приложение; поставьте star/watch, чтобы получать уведомления о нотаризованных релизах. Сборки для Linux и Windows сегодня компилируются через движок LiteRT VoxCPM2 в speech-core; on-device runtime подключён, но ещё не валидирован на железе.
На чём построено
Speech Studio — тонкий GUI поверх speech-swift, open-source Swift-библиотеки, в которой собраны все модели из демо:
- VoxCPM2 — модель клонирования голоса (zero-shot, короткий референс)
- DeepFilterNet3 — шумоподавление для референса и клонированного вывода
- Qwen3-ASR — выравнивание речи к тексту (используется в пайплайне сборки слепого теста из демо)
- Forced Alignment — словные таймштампы для редактуры
- Клонирование голоса руководство — обзор всего пайплайна
Roadmap
- Сегодня: Mac (Apple Silicon).
- Дальше: Linux (CUDA + CPU), Windows.
- После этого: более глубокий редактор, поддержка плагинов для подмены моделей клонирования.
Обратная связь
Открывайте issue на github.com/soniqo/speech-studio/issues — каждое читается.