Speech Studio
Yerel ses klonlama ve çok konuşmacılı diyalog üretimi için açık kaynak Mac uygulaması. Bir ses örneği bırakın, klonlayın, sahne yazın ve sentezleyin — tamamı dizüstünüzde. API anahtarı yok, bulut yok, karakter başı ücret yok.
30 saniyelik kör test: gerçek bir ses, aynı sesin MacBook üzerinde Speech Studio tarafından yerel olarak klonlanmış hali ve aynı sesin ElevenLabs tarafından bulutta klonlanmış hali. Hangisinin hangisi olduğunu söyleyebilir misiniz?
Ne yapar
- Kısa bir referansla ses klonlama — birkaç saniyelik konuşma bırakın, sesi yerel olarak klonlayın.
- Çok konuşmacılı diyalog üretimi — birden çok konuşmacılı bir sahne yazın, hepsini tek seferde sentezleyin.
- Tamamen Mac'inizde çalışır — MLX üzerinde VoxCPM2, gürültü bastırma için DeepFilterNet3, ağ gerekmiyor.
- Apache 2.0 ile açık kaynak — fork edin, gömün, üstüne inşa edin.
Gereksinimler
- macOS 15+ (Sequoia ve sonrası)
- Apple Silicon (M1, M2, M3, M4 serileri)
- En az 8 GB RAM (16 GB önerilir)
- Ses klonlama ve gürültü bastırma modelleri için yaklaşık 3 GB disk (ilk kullanımda HuggingFace'ten indirilir)
Kurulum
GitHub Releases'tan en güncel .dmg'yi indirin, açın, Speech Studio'yu /Applications'a sürükleyin ve çalıştırın:
İlk çalıştırmada macOS Gatekeeper, geliştiricinin doğrulanamadığı uyarısı verir — noter onaylı sürümler gelene kadar Sistem Ayarları → Gizlilik ve Güvenlik → Yine de Aç üzerinden açın. İlk çalıştırma ayrıca HuggingFace'ten ~/.cache/huggingface/hub/ klasörüne yaklaşık 2,75 GB VoxCPM2 ağırlığı indirir; sonraki çalıştırmalar önbelleği yeniden kullanır.
Aynı ses klonlama hattı speech CLI ile de gelir: brew install soniqo/tap/speech, sonra speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — komut dosyaları veya toplu ön-render için kullanışlı. Tam akış için ses klonlama kılavuzuna bakın.
Speech Studio aktif önizlemede (v0.0.2). Kaynak deposu github.com/soniqo/speech-studio GUI uygulamasını takip ediyor; noter onaylı sürüm bildirimleri için star/watch yapın. Linux ve Windows yapıları bugün speech-core'un LiteRT VoxCPM2 motoru üzerinden derleniyor; cihaz üstü çalışma süresi bağlandı fakat henüz donanım üzerinde doğrulanmadı.
Üzerine inşa edildiği şey
Speech Studio, demo'da kullanılan tüm modelleri sağlayan açık kaynak Swift kütüphanesi speech-swift üzerine ince bir GUI'dir:
- VoxCPM2 — ses klonlama modeli (zero-shot, kısa referans)
- DeepFilterNet3 — referansı ve klonlanmış çıktıyı gürültüden arındırır
- Qwen3-ASR — sesi metne hizalar (demo'nun kör test inşa hattında kullanılır)
- Forced Alignment — düzenleme için kelime düzeyinde zaman damgaları
- Ses Klonlama kılavuz — boru hattının tam görünümü
Yol Haritası
- Bugün: Mac (Apple Silicon).
- Sırada: Linux (CUDA + CPU), Windows.
- Sonra: daha derin bir düzenleme yüzeyi, değiştirilebilir klonlama modelleri için eklenti desteği.
Geri Bildirim
github.com/soniqo/speech-studio/issues üzerinden issue açın — her biri okunur.