Speech Studio
App Mac open source para clonagem de voz local e geração de diálogos com vários falantes. Solte uma amostra de voz, clone-a, escreva uma cena e sintetize — tudo no seu laptop. Sem chaves de API, sem nuvem, sem cobrança por caractere.
Teste cego de 30 segundos: uma voz real, a mesma voz clonada localmente pelo Speech Studio num MacBook, e a mesma voz clonada pelo ElevenLabs na nuvem. Consegue distinguir?
O que faz
- Clonagem de voz a partir de uma referência curta — solte alguns segundos de fala e clone a voz localmente.
- Geração de diálogos multi-falante — escreva uma cena com vários falantes e sintetize tudo numa única passada.
- Roda totalmente no seu Mac — VoxCPM2 via MLX, DeepFilterNet3 para supressão de ruído, sem rede.
- Open source sob Apache 2.0 — faça fork, incorpore, construa em cima.
Requisitos
- macOS 15+ (Sequoia ou superior)
- Apple Silicon (séries M1, M2, M3, M4)
- Mínimo 8 GB de RAM (16 GB recomendado)
- ~3 GB de disco para os modelos de clonagem e supressão de ruído (baixados do HuggingFace no primeiro uso)
Instalar
Baixe o último .dmg em GitHub Releases, abra-o, arraste Speech Studio para /Applications e abra-o:
No primeiro lançamento, o Gatekeeper do macOS avisará que o desenvolvedor não pode ser verificado — abra via Ajustes do Sistema → Privacidade e Segurança → Abrir mesmo assim até builds notarizados aparecerem. O primeiro lançamento também baixa ~2,75 GB de pesos VoxCPM2 do HuggingFace para ~/.cache/huggingface/hub/; os próximos reusam o cache.
O mesmo pipeline de clonagem vem na CLI speech: brew install soniqo/tap/speech, depois speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — útil para scripts ou pré-renderização em lote. Veja o guia de clonagem de voz para o fluxo completo.
O Speech Studio está em preview ativo (v0.0.2). O repositório fonte github.com/soniqo/speech-studio acompanha o app GUI; dê star/watch para receber notificações de releases notarizadas. Os builds de Linux e Windows hoje compilam via o motor LiteRT VoxCPM2 do speech-core; o runtime no dispositivo está conectado mas ainda não validado em hardware.
Em que é construído
O Speech Studio é uma GUI fina sobre o speech-swift, a biblioteca Swift open source que entrega todos os modelos usados na demo:
- VoxCPM2 — o modelo de clonagem de voz (zero-shot, referência curta)
- DeepFilterNet3 — remove ruído da referência e da saída clonada
- Qwen3-ASR — alinha fala ao texto (usado no pipeline de build do teste cego)
- Alinhamento Forçado — timestamps em nível de palavra para edição
- Clonagem de Voz guia — visão completa do pipeline
Roadmap
- Hoje: Mac (Apple Silicon).
- Próximo: Linux (CUDA + CPU), Windows.
- Depois disso: superfície de edição mais profunda, suporte a plugins para trocar modelos de clonagem.
Feedback
Abra um issue em github.com/soniqo/speech-studio/issues — cada um é lido.