Speech Studio

App Mac open source pour le clonage vocal local et la génération de dialogues multi-locuteurs. Déposez un échantillon, clonez la voix, écrivez la scène, synthétisez — tout sur votre laptop. Pas de clé API, pas de cloud, pas de facturation au caractère.

github.com/soniqo/speech-studio Apache 2.0 Installer

Test à l’aveugle de 30 secondes : une vraie voix, la même voix clonée localement par Speech Studio sur un MacBook, et la même voix clonée par ElevenLabs dans le cloud. Pouvez-vous les distinguer ?

Ce qu’il fait

Clonage vocal à partir d’une courte référence — déposez quelques secondes de voix, clonez-la localement.
Génération de dialogues multi-locuteurs — écrivez une scène avec plusieurs locuteurs, synthétisez-les en une seule passe.
Fonctionne entièrement sur votre Mac — VoxCPM2 via MLX, DeepFilterNet3 pour la suppression du bruit, aucun réseau requis.
Open source sous Apache 2.0 — forkez-le, intégrez-le, construisez par-dessus.

Pré-requis

macOS 15+ (Apple Silicon), Windows 10+ (x64) ou Linux (x64)
Apple Silicon sur Mac ; tout CPU 64 bits récent sous Windows/Linux
8 Go de RAM minimum (16 Go recommandés)
~3–5 Go d’espace disque pour les modèles vocaux (téléchargés au premier lancement)

Installer

Téléchargez le build adapté à votre plateforme depuis GitHub Releases — macOS .dmg, Windows .msi/.exe ou Linux .deb/.AppImage — puis lancez-le :

↓ Télécharger la dernière version Toutes les releases

Les builds ne sont pas signés : sous macOS, ouvrez-le par clic droit → Ouvrir (ou Réglages Système → Confidentialité et sécurité → Ouvrir quand même) ; sous Windows, choisissez Informations complémentaires → Exécuter quand même dans SmartScreen. Le premier lancement télécharge le modèle vocal VoxCPM2 (~2.75 Go sous macOS, ~4.6 Go sous Windows/Linux) et le met en cache ; les lancements suivants réutilisent le cache.

Vous préférez la CLI ?

Le même pipeline de clonage est livré dans la CLI speech : brew install soniqo/tap/speech, puis speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — pratique pour scripter ou pré-rendre par lots. Voir le guide de clonage vocal pour le flux complet.

Statut

Speech Studio est en preview actif (v0.0.4), avec des installeurs pour macOS, Windows, and Linux — macOS clone via MLX, Windows et Linux via le moteur LiteRT VoxCPM2 de speech-core. Le dépôt source github.com/soniqo/speech-studio suit l’app GUI ; mettez star/watch pour être notifié des releases.

Runner Agent

Speech Studio crée et clone des voix ; Runner utilise le même stack vocal local pour relier micro, VAD, speech-to-text, modèle de langage embarqué et Supertonic TTS dans un compagnon vocal en direct.

Ouvrir la page Runner Télécharger le DMG Runner

Sur quoi c’est bâti

Speech Studio est une GUI fine au-dessus de speech-swift, la bibliothèque Swift open source qui embarque tous les modèles utilisés dans la démo :

VoxCPM2 — le modèle de clonage vocal (zero-shot, référence courte)
DeepFilterNet3 — débruite la référence et la sortie clonée
Qwen3-ASR — aligne la voix sur le texte (utilisé dans le pipeline du test à l’aveugle)
Alignement Forcé — horodatages au niveau du mot pour l’édition
Clonage Vocal guide — vue d’ensemble complète du pipeline

Feuille de route

Aujourd’hui : macOS, Windows, and Linux.
Ensuite : builds signés & notariés (sans invites Gatekeeper/SmartScreen).
Plus tard : surface d’édition plus poussée, support de plugins pour des modèles de clonage interchangeables.

Retours

Ouvrez un issue à l’adresse github.com/soniqo/speech-studio/issues — chacun est lu.