Speech Studio

Yerel ses klonlama ve çok konuşmacılı diyalog üretimi için açık kaynak Mac uygulaması. Bir ses örneği bırakın, klonlayın, sahne yazın ve sentezleyin — tamamı dizüstünüzde. API anahtarı yok, bulut yok, karakter başı ücret yok.

github.com/soniqo/speech-studio Apache 2.0 Kur

30 saniyelik kör test: gerçek bir ses, aynı sesin MacBook üzerinde Speech Studio tarafından yerel olarak klonlanmış hali ve aynı sesin ElevenLabs tarafından bulutta klonlanmış hali. Hangisinin hangisi olduğunu söyleyebilir misiniz?

Ne yapar

Kısa bir referansla ses klonlama — birkaç saniyelik konuşma bırakın, sesi yerel olarak klonlayın.
Çok konuşmacılı diyalog üretimi — birden çok konuşmacılı bir sahne yazın, hepsini tek seferde sentezleyin.
Tamamen Mac'inizde çalışır — MLX üzerinde VoxCPM2, gürültü bastırma için DeepFilterNet3, ağ gerekmiyor.
Apache 2.0 ile açık kaynak — fork edin, gömün, üstüne inşa edin.

Gereksinimler

macOS 15+ (Apple Silicon), Windows 10+ (x64) veya Linux (x64)
Mac'te Apple Silicon; Windows/Linux'ta herhangi bir modern 64 bit CPU
En az 8 GB RAM (16 GB önerilir)
Konuşma modelleri için yaklaşık 3–5 GB disk (ilk çalıştırmada indirilir)

Kurulum

GitHub Releases'tan platformunuza uygun yapıyı indirin — macOS .dmg, Windows .msi/.exe veya Linux .deb/.AppImage — ardından çalıştırın:

↓ En güncel sürümü indir Tüm sürümler

Bu yapılar imzasızdır: macOS'te sağ tıklayıp → Aç ile açın (veya Sistem Ayarları → Gizlilik ve Güvenlik → Yine de Aç); Windows'ta SmartScreen'de Ek bilgi → Yine de çalıştır seçeneğini seçin. İlk çalıştırma VoxCPM2 konuşma modelini (macOS'te ~2.75 GB, Windows/Linux'ta ~4.6 GB) indirir ve önbelleğe alır; sonraki çalıştırmalar önbelleği yeniden kullanır.

CLI tercih edenler?

Aynı ses klonlama hattı speech CLI ile de gelir: brew install soniqo/tap/speech, sonra speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — komut dosyaları veya toplu ön-render için kullanışlı. Tam akış için ses klonlama kılavuzuna bakın.

Durum

Speech Studio aktif önizlemede (v0.0.4); macOS, Windows, and Linux için kurulum dosyalarıyla geliyor — macOS MLX ile, Windows ve Linux ise speech-core'un LiteRT VoxCPM2 motoruyla klonluyor. Kaynak deposu github.com/soniqo/speech-studio GUI uygulamasını takip ediyor; sürüm bildirimleri için star/watch yapın.

Runner Agent

Speech Studio sesleri oluşturur ve klonlar; Runner aynı yerel speech stack ile mikrofonu, VAD'yi, speech-to-text'i, cihazdaki dil modelini ve Supertonic TTS'i canlı bir ses companion döngüsüne bağlar.

Runner sayfasını aç Runner DMG indir

Üzerine inşa edildiği şey

Speech Studio, demo'da kullanılan tüm modelleri sağlayan açık kaynak Swift kütüphanesi speech-swift üzerine ince bir GUI'dir:

VoxCPM2 — ses klonlama modeli (zero-shot, kısa referans)
DeepFilterNet3 — referansı ve klonlanmış çıktıyı gürültüden arındırır
Qwen3-ASR — sesi metne hizalar (demo'nun kör test inşa hattında kullanılır)
Forced Alignment — düzenleme için kelime düzeyinde zaman damgaları
Ses Klonlama kılavuz — boru hattının tam görünümü

Yol Haritası

Bugün: macOS, Windows, and Linux.
Sırada: imzalı & noter onaylı yapılar (Gatekeeper/SmartScreen istemleri olmadan).
Sonra: daha derin bir düzenleme yüzeyi, değiştirilebilir klonlama modelleri için eklenti desteği.

Geri Bildirim

github.com/soniqo/speech-studio/issues üzerinden issue açın — her biri okunur.