Speech Studio

App Mac open source para clonación de voz local y generación de diálogos con varios hablantes. Suelta una muestra de voz, clónala, escribe una escena y sintetiza — todo en tu portátil. Sin claves de API, sin nube, sin precio por carácter.

Prueba ciega de 30 segundos: una voz real, la misma voz clonada localmente por Speech Studio en un MacBook, y la misma voz clonada por ElevenLabs en la nube. ¿Puedes distinguirlas?

Qué hace

Requisitos

Instalar

Descarga el último .dmg desde GitHub Releases, ábrelo, arrastra Speech Studio a /Applications y lánzalo:

En el primer arranque, Gatekeeper de macOS avisará que el desarrollador no se puede verificar — ábrelo desde Ajustes del Sistema → Privacidad y Seguridad → Abrir igualmente hasta que lleguen los builds notarizados. El primer arranque también descarga ~2,75 GB de pesos VoxCPM2 desde HuggingFace a ~/.cache/huggingface/hub/; los siguientes reutilizan la caché.

¿Prefieres la CLI?

El mismo pipeline de clonación de voz viene en la CLI speech: brew install soniqo/tap/speech, luego speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — útil para scripts o pre-renderizado en lote. Consulta la guía de clonación de voz para el flujo completo.

Estado

Speech Studio está en preview activo (v0.0.2). El repositorio fuente github.com/soniqo/speech-studio sigue la app GUI; márcalo con star/watch para recibir notificaciones de releases notarizados. Los builds de Linux y Windows ya compilan hoy vía el motor LiteRT VoxCPM2 de speech-core; el runtime en dispositivo está cableado pero aún no validado en hardware.

Sobre qué está construido

Speech Studio es una GUI ligera sobre speech-swift, la librería Swift open source que provee todos los modelos usados en la demo:

Hoja de ruta

Feedback

Abre un issue en github.com/soniqo/speech-studio/issues — todos se leen.