Speech Studio

App Mac open source para clonagem de voz local e geração de diálogos com vários falantes. Solte uma amostra de voz, clone-a, escreva uma cena e sintetize — tudo no seu laptop. Sem chaves de API, sem nuvem, sem cobrança por caractere.

Teste cego de 30 segundos: uma voz real, a mesma voz clonada localmente pelo Speech Studio num MacBook, e a mesma voz clonada pelo ElevenLabs na nuvem. Consegue distinguir?

O que faz

Requisitos

Instalar

Baixe o último .dmg em GitHub Releases, abra-o, arraste Speech Studio para /Applications e abra-o:

No primeiro lançamento, o Gatekeeper do macOS avisará que o desenvolvedor não pode ser verificado — abra via Ajustes do Sistema → Privacidade e Segurança → Abrir mesmo assim até builds notarizados aparecerem. O primeiro lançamento também baixa ~2,75 GB de pesos VoxCPM2 do HuggingFace para ~/.cache/huggingface/hub/; os próximos reusam o cache.

Prefere a CLI?

O mesmo pipeline de clonagem vem na CLI speech: brew install soniqo/tap/speech, depois speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — útil para scripts ou pré-renderização em lote. Veja o guia de clonagem de voz para o fluxo completo.

Status

O Speech Studio está em preview ativo (v0.0.2). O repositório fonte github.com/soniqo/speech-studio acompanha o app GUI; dê star/watch para receber notificações de releases notarizadas. Os builds de Linux e Windows hoje compilam via o motor LiteRT VoxCPM2 do speech-core; o runtime no dispositivo está conectado mas ainda não validado em hardware.

Em que é construído

O Speech Studio é uma GUI fina sobre o speech-swift, a biblioteca Swift open source que entrega todos os modelos usados na demo:

Roadmap

Feedback

Abra um issue em github.com/soniqo/speech-studio/issues — cada um é lido.