Speech Studio
ओपन-सोर्स Mac ऐप जो लोकल वॉइस क्लोनिंग और मल्टी-स्पीकर डायलॉग जनरेशन करता है। वॉइस सैम्पल डालें, क्लोन करें, सीन लिखें, सिंथेसाइज़ करें — पूरी तरह आपके लैपटॉप पर। कोई API key नहीं, कोई क्लाउड नहीं, प्रति-कैरेक्टर कीमत नहीं।
30 सेकंड का ब्लाइंड टेस्ट: एक असली आवाज़, वही आवाज़ Speech Studio द्वारा MacBook पर लोकल रूप से क्लोन की गई, और वही आवाज़ ElevenLabs द्वारा क्लाउड में क्लोन की गई। क्या आप पहचान सकते हैं कि कौन सी कौन सी है?
क्या करता है
- एक छोटी रेफ़रेंस से वॉइस क्लोनिंग — कुछ सेकंड की स्पीच डालें, उस आवाज़ को लोकल रूप से क्लोन करें।
- मल्टी-स्पीकर डायलॉग जनरेशन — कई स्पीकर्स के साथ एक सीन लिखें, सभी को एक ही पास में सिंथेसाइज़ करें।
- पूरी तरह आपके Mac पर चलता है — MLX के माध्यम से VoxCPM2, नॉइज़ सप्रेशन के लिए DeepFilterNet3, नेटवर्क ज़रूरी नहीं।
- Apache 2.0 के तहत ओपन सोर्स — fork करें, embed करें, इस पर बनाएं।
आवश्यकताएँ
- macOS 15+ (Sequoia या बाद का)
- Apple Silicon (M1, M2, M3, M4 सीरीज़)
- न्यूनतम 8 GB RAM (16 GB अनुशंसित)
- वॉइस क्लोनिंग और डीनॉइज़िंग मॉडल्स के लिए लगभग 3 GB डिस्क (पहली बार उपयोग पर HuggingFace से डाउनलोड)
इंस्टॉल
GitHub Releases से नवीनतम .dmg डाउनलोड करें, खोलें, Speech Studio को /Applications में खींचें, और लॉन्च करें:
पहली बार लॉन्च पर macOS Gatekeeper चेतावनी देगा कि डेवलपर की पुष्टि नहीं हो सकती — notarized बिल्ड आने तक System Settings → Privacy & Security → Open anyway से खोलें। पहली बार चलाने पर लगभग 2.75 GB VoxCPM2 weights भी HuggingFace से ~/.cache/huggingface/hub/ में डाउनलोड होते हैं; अगले लॉन्च cache का उपयोग करते हैं।
वही वॉइस क्लोनिंग पाइपलाइन speech CLI में आती है: brew install soniqo/tap/speech, फिर speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — स्क्रिप्टिंग या batch pre-render के लिए उपयोगी। पूरा flow देखने के लिए वॉइस क्लोनिंग गाइड देखें।
Speech Studio सक्रिय preview में है (v0.0.2)। सोर्स रेपो github.com/soniqo/speech-studio GUI ऐप को ट्रैक करता है; notarized release notifications के लिए star/watch करें। Linux और Windows बिल्ड आज speech-core के LiteRT VoxCPM2 इंजन से कंपाइल होते हैं; ऑन-डिवाइस रनटाइम जुड़ा है पर अभी हार्डवेयर-वेरीफाई नहीं हुआ।
किस पर बना है
Speech Studio speech-swift पर बनी एक हल्की GUI है, यह ओपन-सोर्स Swift लाइब्रेरी डेमो में उपयोग किए गए हर मॉडल को शामिल करती है:
- VoxCPM2 — वॉइस क्लोनिंग मॉडल (zero-shot, छोटा reference)
- DeepFilterNet3 — reference + cloned output को denoise करें
- Qwen3-ASR — स्पीच को टेक्स्ट से align करें (demo के ब्लाइंड-टेस्ट build पाइपलाइन में उपयोग)
- Forced Alignment — एडिटिंग के लिए word-level timestamps
- वॉइस क्लोनिंग गाइड — पूरा पाइपलाइन अवलोकन
रोडमैप
- आज: Mac (Apple Silicon)।
- अगला: Linux (CUDA + CPU), Windows।
- इसके बाद: गहरा editing interface, अदला-बदली होने वाले क्लोनिंग मॉडल्स के लिए plugin support।
फीडबैक
github.com/soniqo/speech-studio/issues पर एक issue खोलें — हर एक पढ़ा जाता है।