Speech Studio

Open-Source Mac-App für lokales Voice Cloning und Mehrsprecher-Dialoggenerierung. Sprachprobe ablegen, klonen, Szene schreiben, synthetisieren — alles auf deinem Laptop. Keine API-Keys, keine Cloud, keine Zeichenabrechnung.

30-Sekunden-Blindtest: eine echte Stimme, dieselbe Stimme lokal von Speech Studio auf einem MacBook geklont, und dieselbe Stimme von ElevenLabs in der Cloud geklont. Kannst du sie auseinanderhalten?

Was es kann

Voraussetzungen

Installieren

Lade das neueste .dmg von GitHub Releases, öffne es, ziehe Speech Studio nach /Applications und starte es:

Beim ersten Start warnt der macOS-Gatekeeper, dass der Entwickler nicht verifiziert werden kann — öffne es über Systemeinstellungen → Datenschutz & Sicherheit → Trotzdem öffnen, bis notarisierte Builds erscheinen. Beim ersten Start werden außerdem ~2,75 GB VoxCPM2-Gewichte von HuggingFace nach ~/.cache/huggingface/hub/ geladen; spätere Starts nutzen den Cache.

Lieber CLI?

Dieselbe Voice-Cloning-Pipeline steckt in der CLI speech: brew install soniqo/tap/speech, dann speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — praktisch für Skripte oder Batch-Vorrendering. Den kompletten Ablauf zeigt der Voice-Cloning-Guide.

Status

Speech Studio ist im aktiven Preview (v0.0.2). Das Quell-Repo github.com/soniqo/speech-studio verfolgt die GUI-App; mit star/watch erhältst du Benachrichtigungen zu notarisierten Releases. Linux- und Windows-Builds kompilieren heute über die LiteRT-VoxCPM2-Engine in speech-core; die Geräte-Runtime ist verdrahtet, aber noch nicht auf Hardware validiert.

Worauf es basiert

Speech Studio ist eine schlanke GUI auf speech-swift, der Open-Source-Swift-Bibliothek, die jedes in der Demo gezeigte Modell mitbringt:

Roadmap

Feedback

Issue eröffnen unter github.com/soniqo/speech-studio/issues — jedes wird gelesen.