Speech Studio
Open-Source Mac-App für lokales Voice Cloning und Mehrsprecher-Dialoggenerierung. Sprachprobe ablegen, klonen, Szene schreiben, synthetisieren — alles auf deinem Laptop. Keine API-Keys, keine Cloud, keine Zeichenabrechnung.
30-Sekunden-Blindtest: eine echte Stimme, dieselbe Stimme lokal von Speech Studio auf einem MacBook geklont, und dieselbe Stimme von ElevenLabs in der Cloud geklont. Kannst du sie auseinanderhalten?
Was es kann
- Voice Cloning aus kurzer Referenz — wenige Sekunden Sprache einlegen, die Stimme lokal klonen.
- Mehrsprecher-Dialoggenerierung — Szene mit mehreren Sprechern schreiben, alles in einem Durchgang synthetisieren.
- Läuft komplett auf deinem Mac — VoxCPM2 via MLX, DeepFilterNet3 zur Rauschunterdrückung, kein Netzwerk nötig.
- Open Source unter Apache 2.0 — forken, einbinden, darauf aufbauen.
Voraussetzungen
- macOS 15+ (Sequoia oder neuer)
- Apple Silicon (M1, M2, M3, M4 Serie)
- Mindestens 8 GB RAM (16 GB empfohlen)
- ~3 GB Speicher für die Voice-Cloning- und Denoising-Modelle (werden beim ersten Start von HuggingFace geladen)
Installieren
Lade das neueste .dmg von GitHub Releases, öffne es, ziehe Speech Studio nach /Applications und starte es:
Beim ersten Start warnt der macOS-Gatekeeper, dass der Entwickler nicht verifiziert werden kann — öffne es über Systemeinstellungen → Datenschutz & Sicherheit → Trotzdem öffnen, bis notarisierte Builds erscheinen. Beim ersten Start werden außerdem ~2,75 GB VoxCPM2-Gewichte von HuggingFace nach ~/.cache/huggingface/hub/ geladen; spätere Starts nutzen den Cache.
Dieselbe Voice-Cloning-Pipeline steckt in der CLI speech: brew install soniqo/tap/speech, dann speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — praktisch für Skripte oder Batch-Vorrendering. Den kompletten Ablauf zeigt der Voice-Cloning-Guide.
Speech Studio ist im aktiven Preview (v0.0.2). Das Quell-Repo github.com/soniqo/speech-studio verfolgt die GUI-App; mit star/watch erhältst du Benachrichtigungen zu notarisierten Releases. Linux- und Windows-Builds kompilieren heute über die LiteRT-VoxCPM2-Engine in speech-core; die Geräte-Runtime ist verdrahtet, aber noch nicht auf Hardware validiert.
Worauf es basiert
Speech Studio ist eine schlanke GUI auf speech-swift, der Open-Source-Swift-Bibliothek, die jedes in der Demo gezeigte Modell mitbringt:
- VoxCPM2 — das Voice-Cloning-Modell (Zero-Shot, kurze Referenz)
- DeepFilterNet3 — Rauschen aus Referenz und geklontem Output entfernen
- Qwen3-ASR — Sprache an Text ausrichten (im Build-Pipeline des Blindtests verwendet)
- Forced Alignment — Zeitstempel auf Wortebene fürs Editing
- Voice Cloning Guide — vollständiger Pipeline-Überblick
Roadmap
- Heute: Mac (Apple Silicon).
- Als Nächstes: Linux (CUDA + CPU), Windows.
- Danach: tiefer integrierter Editor, Plugin-Support für austauschbare Cloning-Modelle.
Feedback
Issue eröffnen unter github.com/soniqo/speech-studio/issues — jedes wird gelesen.