Speech Studio

Open-source Mac-приложение для локального клонирования голоса и генерации диалогов с несколькими спикерами. Перетащите образец голоса, клонируйте, напишите сцену, синтезируйте — всё на вашем ноутбуке. Без API-ключей, без облака, без оплаты за символы.

github.com/soniqo/speech-studio Apache 2.0 Установить

30-секундный слепой тест: реальный голос, тот же голос, клонированный локально Speech Studio на MacBook, и тот же голос, клонированный ElevenLabs в облаке. Сможете отличить?

Что умеет

Клонирование голоса по короткому образцу — перетащите несколько секунд речи, клонируйте голос локально.
Генерация многоспикерных диалогов — напишите сцену с несколькими спикерами, синтезируйте всех за один проход.
Работает полностью на вашем Mac — VoxCPM2 через MLX, DeepFilterNet3 для шумоподавления, без сети.
Open source под Apache 2.0 — форкайте, встраивайте, развивайте.

Требования

macOS 15+ (Apple Silicon), Windows 10+ (x64) или Linux (x64)
Apple Silicon на Mac; любой современный 64-битный CPU на Windows/Linux
Минимум 8 ГБ ОЗУ (рекомендуется 16 ГБ)
~3–5 ГБ на диске для речевых моделей (скачиваются при первом запуске)

Установка

Скачайте сборку для вашей платформы с GitHub Releases — macOS .dmg, Windows .msi/.exe или Linux .deb/.AppImage — затем запустите:

↓ Скачать последнюю версию Все релизы

Сборки не подписаны: на macOS открывайте через правый клик → Открыть (или Системные настройки → Конфиденциальность и безопасность → Открыть всё равно); на Windows выберите Подробнее → Выполнить в любом случае в SmartScreen. При первом запуске скачивается речевая модель VoxCPM2 (~2.75 GB на macOS, ~4.6 GB на Windows/Linux) и кэшируется; последующие запуски используют кэш.

Предпочитаете CLI?

Тот же конвейер клонирования есть в CLI speech: brew install soniqo/tap/speech, затем speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — удобно для скриптов и батч-предрендеринга. Полный поток смотрите в руководстве по клонированию голоса.

Статус

Speech Studio в активном превью (v0.0.4), с установщиками для macOS, Windows, and Linux — macOS клонирует через MLX, Windows и Linux через движок LiteRT VoxCPM2 в speech-core. Репозиторий github.com/soniqo/speech-studio отслеживает GUI-приложение; поставьте star/watch, чтобы получать уведомления о релизах.

Runner Agent

Speech Studio создает и клонирует голоса; Runner использует тот же локальный речевой стек и соединяет микрофон, VAD, распознавание речи, локальную языковую модель и Supertonic TTS в живого голосового компаньона.

Открыть страницу Runner Скачать Runner DMG

На чём построено

Speech Studio — тонкий GUI поверх speech-swift, open-source Swift-библиотеки, в которой собраны все модели из демо:

VoxCPM2 — модель клонирования голоса (zero-shot, короткий референс)
DeepFilterNet3 — шумоподавление для референса и клонированного вывода
Qwen3-ASR — выравнивание речи к тексту (используется в пайплайне сборки слепого теста из демо)
Forced Alignment — словные таймштампы для редактуры
Клонирование голоса руководство — обзор всего пайплайна

Roadmap

Сегодня: macOS, Windows, and Linux.
Дальше: подписанные и нотаризованные сборки (без запросов Gatekeeper/SmartScreen).
После этого: более глубокий редактор, поддержка плагинов для подмены моделей клонирования.

Обратная связь

Открывайте issue на github.com/soniqo/speech-studio/issues — каждое читается.