Speech Studio

App Mac open source pour le clonage vocal local et la génération de dialogues multi-locuteurs. Déposez un échantillon, clonez la voix, écrivez la scène, synthétisez — tout sur votre laptop. Pas de clé API, pas de cloud, pas de facturation au caractère.

Test à l’aveugle de 30 secondes : une vraie voix, la même voix clonée localement par Speech Studio sur un MacBook, et la même voix clonée par ElevenLabs dans le cloud. Pouvez-vous les distinguer ?

Ce qu’il fait

Pré-requis

Installer

Téléchargez le dernier .dmg depuis GitHub Releases, ouvrez-le, glissez Speech Studio dans /Applications, puis lancez-le :

Au premier lancement, Gatekeeper indique que le développeur ne peut pas être vérifié — ouvrez-le via Réglages Système → Confidentialité et sécurité → Ouvrir quand même jusqu’à ce que des builds notariés soient publiés. Le premier lancement télécharge aussi ~2,75 Go de poids VoxCPM2 depuis HuggingFace dans ~/.cache/huggingface/hub/ ; les lancements suivants réutilisent le cache.

Vous préférez la CLI ?

Le même pipeline de clonage est livré dans la CLI speech : brew install soniqo/tap/speech, puis speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — pratique pour scripter ou pré-rendre par lots. Voir le guide de clonage vocal pour le flux complet.

Statut

Speech Studio est en preview actif (v0.0.2). Le dépôt source github.com/soniqo/speech-studio suit l’app GUI ; mettez star/watch pour être notifié des releases notariées. Les builds Linux et Windows compilent aujourd’hui via le moteur LiteRT VoxCPM2 de speech-core ; le runtime en local est câblé mais pas encore validé sur matériel.

Sur quoi c’est bâti

Speech Studio est une GUI fine au-dessus de speech-swift, la bibliothèque Swift open source qui embarque tous les modèles utilisés dans la démo :

Feuille de route

Retours

Ouvrez un issue à l’adresse github.com/soniqo/speech-studio/issues — chacun est lu.