Speech Studio

ओपन-सोर्स Mac ऐप जो लोकल वॉइस क्लोनिंग और मल्टी-स्पीकर डायलॉग जनरेशन करता है। वॉइस सैम्पल डालें, क्लोन करें, सीन लिखें, सिंथेसाइज़ करें — पूरी तरह आपके लैपटॉप पर। कोई API key नहीं, कोई क्लाउड नहीं, प्रति-कैरेक्टर कीमत नहीं।

github.com/soniqo/speech-studio Apache 2.0 इंस्टॉल

30 सेकंड का ब्लाइंड टेस्ट: एक असली आवाज़, वही आवाज़ Speech Studio द्वारा MacBook पर लोकल रूप से क्लोन की गई, और वही आवाज़ ElevenLabs द्वारा क्लाउड में क्लोन की गई। क्या आप पहचान सकते हैं कि कौन सी कौन सी है?

क्या करता है

एक छोटी रेफ़रेंस से वॉइस क्लोनिंग — कुछ सेकंड की स्पीच डालें, उस आवाज़ को लोकल रूप से क्लोन करें।
मल्टी-स्पीकर डायलॉग जनरेशन — कई स्पीकर्स के साथ एक सीन लिखें, सभी को एक ही पास में सिंथेसाइज़ करें।
पूरी तरह आपके Mac पर चलता है — MLX के माध्यम से VoxCPM2, नॉइज़ सप्रेशन के लिए DeepFilterNet3, नेटवर्क ज़रूरी नहीं।
Apache 2.0 के तहत ओपन सोर्स — fork करें, embed करें, इस पर बनाएं।

आवश्यकताएँ

macOS 15+ (Apple Silicon), Windows 10+ (x64), या Linux (x64)
Mac पर Apple Silicon; Windows/Linux पर कोई भी आधुनिक 64-बिट CPU
न्यूनतम 8 GB RAM (16 GB अनुशंसित)
स्पीच मॉडल्स के लिए लगभग 3–5 GB डिस्क (पहली बार चलाने पर डाउनलोड)

इंस्टॉल

GitHub Releases से अपने प्लेटफ़ॉर्म के लिए बिल्ड डाउनलोड करें — macOS .dmg, Windows .msi/.exe, या Linux .deb/.AppImage — फिर इसे लॉन्च करें:

↓ नवीनतम डाउनलोड करें सभी रिलीज़

ये बिल्ड अहस्ताक्षरित हैं: macOS पर राइट-क्लिक → Open से खोलें (या System Settings → Privacy & Security → Open anyway); Windows पर SmartScreen में More info → Run anyway चुनें। पहली बार लॉन्च करने पर VoxCPM2 स्पीच मॉडल (macOS पर ~2.75 GB, Windows/Linux पर ~4.6 GB) डाउनलोड होकर कैश हो जाता है; अगले लॉन्च कैश का पुनः उपयोग करते हैं।

CLI पसंद है?

वही वॉइस क्लोनिंग पाइपलाइन speech CLI में आती है: brew install soniqo/tap/speech, फिर speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — स्क्रिप्टिंग या batch pre-render के लिए उपयोगी। पूरा flow देखने के लिए वॉइस क्लोनिंग गाइड देखें।

स्थिति

Speech Studio सक्रिय preview में है (v0.0.4), जिसमें macOS, Windows, and Linux के लिए इंस्टॉलर हैं — macOS MLX के माध्यम से क्लोन करता है, Windows और Linux speech-core के LiteRT VoxCPM2 इंजन के माध्यम से। सोर्स रेपो github.com/soniqo/speech-studio GUI ऐप को ट्रैक करता है; release notifications के लिए star/watch करें।

Runner Agent

Speech Studio आवाज़ें बनाता और clone करता है; Runner उसी local speech stack से mic, VAD, speech-to-text, on-device language model और Supertonic TTS को live voice companion में जोड़ता है।

Runner पेज खोलें Runner DMG डाउनलोड करें

किस पर बना है

Speech Studio speech-swift पर बनी एक हल्की GUI है, यह ओपन-सोर्स Swift लाइब्रेरी डेमो में उपयोग किए गए हर मॉडल को शामिल करती है:

VoxCPM2 — वॉइस क्लोनिंग मॉडल (zero-shot, छोटा reference)
DeepFilterNet3 — reference + cloned output को denoise करें
Qwen3-ASR — स्पीच को टेक्स्ट से align करें (demo के ब्लाइंड-टेस्ट build पाइपलाइन में उपयोग)
Forced Alignment — एडिटिंग के लिए word-level timestamps
वॉइस क्लोनिंग गाइड — पूरा पाइपलाइन अवलोकन

रोडमैप

आज: macOS, Windows, and Linux।
अगला: हस्ताक्षरित & नोटराइज़्ड बिल्ड (कोई Gatekeeper/SmartScreen प्रॉम्प्ट नहीं)।
इसके बाद: गहरा editing interface, अदला-बदली होने वाले क्लोनिंग मॉडल्स के लिए plugin support।

फीडबैक

github.com/soniqo/speech-studio/issues पर एक issue खोलें — हर एक पढ़ा जाता है।