Speech Studio

Yerel ses klonlama ve çok konuşmacılı diyalog üretimi için açık kaynak Mac uygulaması. Bir ses örneği bırakın, klonlayın, sahne yazın ve sentezleyin — tamamı dizüstünüzde. API anahtarı yok, bulut yok, karakter başı ücret yok.

30 saniyelik kör test: gerçek bir ses, aynı sesin MacBook üzerinde Speech Studio tarafından yerel olarak klonlanmış hali ve aynı sesin ElevenLabs tarafından bulutta klonlanmış hali. Hangisinin hangisi olduğunu söyleyebilir misiniz?

Ne yapar

Gereksinimler

Kurulum

GitHub Releases'tan en güncel .dmg'yi indirin, açın, Speech Studio'yu /Applications'a sürükleyin ve çalıştırın:

İlk çalıştırmada macOS Gatekeeper, geliştiricinin doğrulanamadığı uyarısı verir — noter onaylı sürümler gelene kadar Sistem Ayarları → Gizlilik ve Güvenlik → Yine de Aç üzerinden açın. İlk çalıştırma ayrıca HuggingFace'ten ~/.cache/huggingface/hub/ klasörüne yaklaşık 2,75 GB VoxCPM2 ağırlığı indirir; sonraki çalıştırmalar önbelleği yeniden kullanır.

CLI tercih edenler?

Aynı ses klonlama hattı speech CLI ile de gelir: brew install soniqo/tap/speech, sonra speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — komut dosyaları veya toplu ön-render için kullanışlı. Tam akış için ses klonlama kılavuzuna bakın.

Durum

Speech Studio aktif önizlemede (v0.0.2). Kaynak deposu github.com/soniqo/speech-studio GUI uygulamasını takip ediyor; noter onaylı sürüm bildirimleri için star/watch yapın. Linux ve Windows yapıları bugün speech-core'un LiteRT VoxCPM2 motoru üzerinden derleniyor; cihaz üstü çalışma süresi bağlandı fakat henüz donanım üzerinde doğrulanmadı.

Üzerine inşa edildiği şey

Speech Studio, demo'da kullanılan tüm modelleri sağlayan açık kaynak Swift kütüphanesi speech-swift üzerine ince bir GUI'dir:

Yol Haritası

Geri Bildirim

github.com/soniqo/speech-studio/issues üzerinden issue açın — her biri okunur.