Speech Studio

App Mac open source para clonagem de voz local e geração de diálogos com vários falantes. Solte uma amostra de voz, clone-a, escreva uma cena e sintetize — tudo no seu laptop. Sem chaves de API, sem nuvem, sem cobrança por caractere.

github.com/soniqo/speech-studio Apache 2.0 Instalar

Teste cego de 30 segundos: uma voz real, a mesma voz clonada localmente pelo Speech Studio num MacBook, e a mesma voz clonada pelo ElevenLabs na nuvem. Consegue distinguir?

O que faz

Clonagem de voz a partir de uma referência curta — solte alguns segundos de fala e clone a voz localmente.
Geração de diálogos multi-falante — escreva uma cena com vários falantes e sintetize tudo numa única passada.
Roda totalmente no seu Mac — VoxCPM2 via MLX, DeepFilterNet3 para supressão de ruído, sem rede.
Open source sob Apache 2.0 — faça fork, incorpore, construa em cima.

Requisitos

macOS 15+ (Apple Silicon), Windows 10+ (x64) ou Linux (x64)
Apple Silicon no Mac; qualquer CPU de 64 bits moderna no Windows/Linux
Mínimo 8 GB de RAM (16 GB recomendado)
~3–5 GB de disco para os modelos de voz (baixados no primeiro uso)

Instalar

Baixe o build para a sua plataforma em GitHub Releases — macOS .dmg, Windows .msi/.exe ou Linux .deb/.AppImage — e abra-o:

↓ Baixar a versão mais recente Todas as releases

Os builds não são assinados: no macOS abra com clique-direito → Abrir (ou Ajustes do Sistema → Privacidade e Segurança → Abrir mesmo assim); no Windows escolha Mais informações → Executar assim mesmo no SmartScreen. O primeiro lançamento baixa o modelo de voz VoxCPM2 (~2.75 GB no macOS, ~4.6 GB no Windows/Linux) e o armazena em cache; os próximos reusam o cache.

Prefere a CLI?

O mesmo pipeline de clonagem vem na CLI speech: brew install soniqo/tap/speech, depois speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — útil para scripts ou pré-renderização em lote. Veja o guia de clonagem de voz para o fluxo completo.

Status

O Speech Studio está em preview ativo (v0.0.4), com instaladores para macOS, Windows, and Linux — o macOS clona via MLX, o Windows e o Linux via o motor LiteRT VoxCPM2 do speech-core. O repositório fonte github.com/soniqo/speech-studio acompanha o app GUI; dê star/watch para receber notificações de releases.

Runner Agent

O Speech Studio cria e clona vozes; o Runner usa o mesmo stack local de fala para conectar microfone, VAD, speech-to-text, modelo de linguagem no dispositivo e Supertonic TTS em um companheiro de voz ao vivo.

Abrir página do Runner Baixar DMG do Runner

Em que é construído

O Speech Studio é uma GUI fina sobre o speech-swift, a biblioteca Swift open source que entrega todos os modelos usados na demo:

VoxCPM2 — o modelo de clonagem de voz (zero-shot, referência curta)
DeepFilterNet3 — remove ruído da referência e da saída clonada
Qwen3-ASR — alinha fala ao texto (usado no pipeline de build do teste cego)
Alinhamento Forçado — timestamps em nível de palavra para edição
Clonagem de Voz guia — visão completa do pipeline

Roadmap

Hoje: macOS, Windows, and Linux.
Próximo: builds assinados e notarizados (sem prompts de Gatekeeper/SmartScreen).
Depois disso: superfície de edição mais profunda, suporte a plugins para trocar modelos de clonagem.

Feedback

Abra um issue em github.com/soniqo/speech-studio/issues — cada um é lido.