Speech Studio

Open-Source Mac-App für lokales Voice Cloning und Mehrsprecher-Dialoggenerierung. Sprachprobe ablegen, klonen, Szene schreiben, synthetisieren — alles auf deinem Laptop. Keine API-Keys, keine Cloud, keine Zeichenabrechnung.

github.com/soniqo/speech-studio Apache 2.0 Installieren

30-Sekunden-Blindtest: eine echte Stimme, dieselbe Stimme lokal von Speech Studio auf einem MacBook geklont, und dieselbe Stimme von ElevenLabs in der Cloud geklont. Kannst du sie auseinanderhalten?

Was es kann

Voice Cloning aus kurzer Referenz — wenige Sekunden Sprache einlegen, die Stimme lokal klonen.
Mehrsprecher-Dialoggenerierung — Szene mit mehreren Sprechern schreiben, alles in einem Durchgang synthetisieren.
Läuft komplett auf deinem Mac — VoxCPM2 via MLX, DeepFilterNet3 zur Rauschunterdrückung, kein Netzwerk nötig.
Open Source unter Apache 2.0 — forken, einbinden, darauf aufbauen.

Voraussetzungen

macOS 15+ (Apple Silicon), Windows 10+ (x64) oder Linux (x64)
Apple Silicon auf dem Mac; jede moderne 64-Bit-CPU unter Windows/Linux
Mindestens 8 GB RAM (16 GB empfohlen)
~3–5 GB Speicher für die Sprachmodelle (werden beim ersten Start geladen)

Installieren

Lade den Build für deine Plattform von GitHub Releases — macOS .dmg, Windows .msi/.exe oder Linux .deb/.AppImage — und starte ihn:

↓ Neueste Version herunterladen Alle Releases

Die Builds sind unsigniert: Unter macOS per Rechtsklick → Öffnen starten (oder Systemeinstellungen → Datenschutz & Sicherheit → Trotzdem öffnen); unter Windows in SmartScreen Weitere Informationen → Trotzdem ausführen wählen. Der erste Start lädt das VoxCPM2-Sprachmodell (~2.75 GB unter macOS, ~4.6 GB unter Windows/Linux) und legt es im Cache ab; spätere Starts nutzen den Cache.

Lieber CLI?

Dieselbe Voice-Cloning-Pipeline steckt in der CLI speech: brew install soniqo/tap/speech, dann speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — praktisch für Skripte oder Batch-Vorrendering. Den kompletten Ablauf zeigt der Voice-Cloning-Guide.

Status

Speech Studio ist im aktiven Preview (v0.0.4), mit Installern für macOS, Windows, and Linux — macOS klont über MLX, Windows und Linux über die LiteRT-VoxCPM2-Engine von speech-core. Das Quell-Repo github.com/soniqo/speech-studio verfolgt die GUI-App; mit star/watch erhältst du Benachrichtigungen zu Releases.

Runner Agent

Speech Studio erstellt und klont Stimmen; Runner nutzt denselben lokalen Sprachstack und verbindet Mikrofon, VAD, Spracherkennung, On-Device-Sprachmodell und Supertonic TTS zu einem Live-Sprachbegleiter.

Runner-Seite öffnen Runner-DMG herunterladen

Worauf es basiert

Speech Studio ist eine schlanke GUI auf speech-swift, der Open-Source-Swift-Bibliothek, die jedes in der Demo gezeigte Modell mitbringt:

VoxCPM2 — das Voice-Cloning-Modell (Zero-Shot, kurze Referenz)
DeepFilterNet3 — Rauschen aus Referenz und geklontem Output entfernen
Qwen3-ASR — Sprache an Text ausrichten (im Build-Pipeline des Blindtests verwendet)
Forced Alignment — Zeitstempel auf Wortebene fürs Editing
Voice Cloning Guide — vollständiger Pipeline-Überblick

Roadmap

Heute: macOS, Windows, and Linux.
Als Nächstes: signierte & notarisierte Builds (keine Gatekeeper-/SmartScreen-Abfragen).
Danach: tiefer integrierter Editor, Plugin-Support für austauschbare Cloning-Modelle.

Feedback

Issue eröffnen unter github.com/soniqo/speech-studio/issues — jedes wird gelesen.