Speech Studio
App Mac open source para clonación de voz local y generación de diálogos con varios hablantes. Suelta una muestra de voz, clónala, escribe una escena y sintetiza — todo en tu portátil. Sin claves de API, sin nube, sin precio por carácter.
Prueba ciega de 30 segundos: una voz real, la misma voz clonada localmente por Speech Studio en un MacBook, y la misma voz clonada por ElevenLabs en la nube. ¿Puedes distinguirlas?
Qué hace
- Clonación de voz desde una referencia corta — suelta unos segundos de audio y clona la voz localmente.
- Generación de diálogos multi-hablante — escribe una escena con varios hablantes y sintetízalos todos en una sola pasada.
- Funciona completamente en tu Mac — VoxCPM2 vía MLX, DeepFilterNet3 para supresión de ruido, sin red.
- Open source bajo Apache 2.0 — haz fork, embebe, construye encima.
Requisitos
- macOS 15+ (Sequoia o posterior)
- Apple Silicon (series M1, M2, M3, M4)
- Mínimo 8 GB de RAM (16 GB recomendado)
- ~3 GB de disco para los modelos de clonación de voz y supresión de ruido (descargados desde HuggingFace en el primer uso)
Instalar
Descarga el último .dmg desde GitHub Releases, ábrelo, arrastra Speech Studio a /Applications y lánzalo:
En el primer arranque, Gatekeeper de macOS avisará que el desarrollador no se puede verificar — ábrelo desde Ajustes del Sistema → Privacidad y Seguridad → Abrir igualmente hasta que lleguen los builds notarizados. El primer arranque también descarga ~2,75 GB de pesos VoxCPM2 desde HuggingFace a ~/.cache/huggingface/hub/; los siguientes reutilizan la caché.
El mismo pipeline de clonación de voz viene en la CLI speech: brew install soniqo/tap/speech, luego speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — útil para scripts o pre-renderizado en lote. Consulta la guía de clonación de voz para el flujo completo.
Speech Studio está en preview activo (v0.0.2). El repositorio fuente github.com/soniqo/speech-studio sigue la app GUI; márcalo con star/watch para recibir notificaciones de releases notarizados. Los builds de Linux y Windows ya compilan hoy vía el motor LiteRT VoxCPM2 de speech-core; el runtime en dispositivo está cableado pero aún no validado en hardware.
Sobre qué está construido
Speech Studio es una GUI ligera sobre speech-swift, la librería Swift open source que provee todos los modelos usados en la demo:
- VoxCPM2 — el modelo de clonación de voz (zero-shot, referencia corta)
- DeepFilterNet3 — suprime el ruido de la referencia y la salida clonada
- Qwen3-ASR — alinea la voz con el texto (usada en el pipeline de construcción de la prueba ciega)
- Alineación Forzada — marcas de tiempo a nivel de palabra para la edición
- Clonación de Voz guía — visión completa del pipeline
Hoja de ruta
- Hoy: Mac (Apple Silicon).
- Siguiente: Linux (CUDA + CPU), Windows.
- Después: superficie de edición más profunda, soporte de plugins para intercambiar modelos de clonación.
Feedback
Abre un issue en github.com/soniqo/speech-studio/issues — todos se leen.