Speech Studio

ओपन-सोर्स Mac ऐप जो लोकल वॉइस क्लोनिंग और मल्टी-स्पीकर डायलॉग जनरेशन करता है। वॉइस सैम्पल डालें, क्लोन करें, सीन लिखें, सिंथेसाइज़ करें — पूरी तरह आपके लैपटॉप पर। कोई API key नहीं, कोई क्लाउड नहीं, प्रति-कैरेक्टर कीमत नहीं।

30 सेकंड का ब्लाइंड टेस्ट: एक असली आवाज़, वही आवाज़ Speech Studio द्वारा MacBook पर लोकल रूप से क्लोन की गई, और वही आवाज़ ElevenLabs द्वारा क्लाउड में क्लोन की गई। क्या आप पहचान सकते हैं कि कौन सी कौन सी है?

क्या करता है

आवश्यकताएँ

इंस्टॉल

GitHub Releases से नवीनतम .dmg डाउनलोड करें, खोलें, Speech Studio को /Applications में खींचें, और लॉन्च करें:

पहली बार लॉन्च पर macOS Gatekeeper चेतावनी देगा कि डेवलपर की पुष्टि नहीं हो सकती — notarized बिल्ड आने तक System Settings → Privacy & Security → Open anyway से खोलें। पहली बार चलाने पर लगभग 2.75 GB VoxCPM2 weights भी HuggingFace से ~/.cache/huggingface/hub/ में डाउनलोड होते हैं; अगले लॉन्च cache का उपयोग करते हैं।

CLI पसंद है?

वही वॉइस क्लोनिंग पाइपलाइन speech CLI में आती है: brew install soniqo/tap/speech, फिर speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — स्क्रिप्टिंग या batch pre-render के लिए उपयोगी। पूरा flow देखने के लिए वॉइस क्लोनिंग गाइड देखें।

स्थिति

Speech Studio सक्रिय preview में है (v0.0.2)। सोर्स रेपो github.com/soniqo/speech-studio GUI ऐप को ट्रैक करता है; notarized release notifications के लिए star/watch करें। Linux और Windows बिल्ड आज speech-core के LiteRT VoxCPM2 इंजन से कंपाइल होते हैं; ऑन-डिवाइस रनटाइम जुड़ा है पर अभी हार्डवेयर-वेरीफाई नहीं हुआ।

किस पर बना है

Speech Studio speech-swift पर बनी एक हल्की GUI है, यह ओपन-सोर्स Swift लाइब्रेरी डेमो में उपयोग किए गए हर मॉडल को शामिल करती है:

रोडमैप

फीडबैक

github.com/soniqo/speech-studio/issues पर एक issue खोलें — हर एक पढ़ा जाता है।