Speech Studio
App Mac open source pour le clonage vocal local et la génération de dialogues multi-locuteurs. Déposez un échantillon, clonez la voix, écrivez la scène, synthétisez — tout sur votre laptop. Pas de clé API, pas de cloud, pas de facturation au caractère.
Test à l’aveugle de 30 secondes : une vraie voix, la même voix clonée localement par Speech Studio sur un MacBook, et la même voix clonée par ElevenLabs dans le cloud. Pouvez-vous les distinguer ?
Ce qu’il fait
- Clonage vocal à partir d’une courte référence — déposez quelques secondes de voix, clonez-la localement.
- Génération de dialogues multi-locuteurs — écrivez une scène avec plusieurs locuteurs, synthétisez-les en une seule passe.
- Fonctionne entièrement sur votre Mac — VoxCPM2 via MLX, DeepFilterNet3 pour la suppression du bruit, aucun réseau requis.
- Open source sous Apache 2.0 — forkez-le, intégrez-le, construisez par-dessus.
Pré-requis
- macOS 15+ (Sequoia ou plus récent)
- Apple Silicon (séries M1, M2, M3, M4)
- 8 Go de RAM minimum (16 Go recommandés)
- ~3 Go d’espace disque pour les modèles de clonage et de débruitage (téléchargés depuis HuggingFace au premier lancement)
Installer
Téléchargez le dernier .dmg depuis GitHub Releases, ouvrez-le, glissez Speech Studio dans /Applications, puis lancez-le :
Au premier lancement, Gatekeeper indique que le développeur ne peut pas être vérifié — ouvrez-le via Réglages Système → Confidentialité et sécurité → Ouvrir quand même jusqu’à ce que des builds notariés soient publiés. Le premier lancement télécharge aussi ~2,75 Go de poids VoxCPM2 depuis HuggingFace dans ~/.cache/huggingface/hub/ ; les lancements suivants réutilisent le cache.
Le même pipeline de clonage est livré dans la CLI speech : brew install soniqo/tap/speech, puis speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — pratique pour scripter ou pré-rendre par lots. Voir le guide de clonage vocal pour le flux complet.
Speech Studio est en preview actif (v0.0.2). Le dépôt source github.com/soniqo/speech-studio suit l’app GUI ; mettez star/watch pour être notifié des releases notariées. Les builds Linux et Windows compilent aujourd’hui via le moteur LiteRT VoxCPM2 de speech-core ; le runtime en local est câblé mais pas encore validé sur matériel.
Sur quoi c’est bâti
Speech Studio est une GUI fine au-dessus de speech-swift, la bibliothèque Swift open source qui embarque tous les modèles utilisés dans la démo :
- VoxCPM2 — le modèle de clonage vocal (zero-shot, référence courte)
- DeepFilterNet3 — débruite la référence et la sortie clonée
- Qwen3-ASR — aligne la voix sur le texte (utilisé dans le pipeline du test à l’aveugle)
- Alignement Forcé — horodatages au niveau du mot pour l’édition
- Clonage Vocal guide — vue d’ensemble complète du pipeline
Feuille de route
- Aujourd’hui : Mac (Apple Silicon).
- Ensuite : Linux (CUDA + CPU), Windows.
- Plus tard : surface d’édition plus poussée, support de plugins pour des modèles de clonage interchangeables.
Retours
Ouvrez un issue à l’adresse github.com/soniqo/speech-studio/issues — chacun est lu.