ऑन-डिवाइस स्पीच।
असली प्रोडक्ट्स के लिए।
डायराइज़्ड ट्रांसक्रिप्शन, ज़ीरो-शॉट वॉइस क्लोनिंग, लॉन्ग-फ़ॉर्म स्पीच सिंथेसिस — Apple Silicon, Android, और एम्बेडेड Linux पर। कोई क्लाउड API नहीं, कोई प्रति-मिनट कीमत नहीं, कोई डेटा डिवाइस से बाहर नहीं।
brew install soniqo/tap/speechimplementation("audio.soniqo:speech:0.0.5")MacBook पर लोकल स्पीच AI
चार मिनट का ओपन-सोर्स लाइब्रेरी टूर: Nemotron Streaming से रियलटाइम ट्रांसक्रिप्शन, PersonaPlex से लोकल स्पीच-टू-स्पीच, और VoxCPM2 से 48 kHz वॉइस क्लोनिंग — हर डेमो लैपटॉप पर ही चलता है।
YouTube पर देखेंतीन ऑन-डिवाइस यूज़-केस ग्रुप।
हर ग्रुप में कई सब-यूज़-केस होते हैं जो Soniqo कॉम्पोनेंट्स से जुड़े होते हैं। ऑडियो डालिए, बातचीत, ट्रांसक्रिप्ट या जेनरेट की हुई आवाज़ पाइए — लोकल, रियल-टाइम में।
वॉइस एजेंट
वॉइस-फ़र्स्ट इंटरफ़ेस बनाइए — फ़ुल-डुप्लेक्स speech-to-speech से लेकर वेक-वर्ड-संचालित कंपोज़ेबल पाइपलाइन तक, सब लोकल।
ट्रांसक्रिप्शन
ऑडियो को संरचित टेक्स्ट में बदलिए — लाइव कैप्शन और डिक्टेशन के लिए रियल-टाइम स्ट्रीमिंग, अभिलेखों के लिए उच्च-सटीक बैच, हर वक्ता का नाम देने के लिए डायराइज़्ड।
स्पीच जनरेशन
किसी भी आवाज़ में वाणी बनाइए — कुछ सेकंड में आवाज़ क्लोन कीजिए, घंटों तक ऑडियोबुक नैरेट कीजिए, या मल्टी-स्पीकर पॉडकास्ट कास्ट कीजिए — पूरी तरह ऑफ़लाइन।
बीस से ज़्यादा मॉडल। एक ही स्टैक।
ऊपर की यूज़-केस पाइपलाइन्स इन्हीं मॉडल्स से बनी हैं। किसी भी कॉम्पोनेंट का आर्किटेक्चर, CLI, Swift API और बेंचमार्क देखने के लिए उसे चुनिए। सभी Apple Silicon पर चलते हैं, ज़्यादातर Android और Linux पर भी।
स्पीच-टू-टेक्स्ट
टेक्स्ट-टू-स्पीच
9 langs, zero-shot cloning, 4-bit → bf16
12 Hz codec LM, faster than real-time
48 kHz, 30 langs, voice design + cloning
50 voices, ~45 ms inference
90-min podcasts / audiobooks
9 langs, 5 baked voices, streaming
CosyVoice, Qwen3-TTS ICL, CAM++
