ओपन-सोर्स · Apache 2.0 · पूरी तरह ऑफ़लाइन

ऑन-डिवाइस स्पीच।
असली प्रोडक्ट्स के लिए।

डायराइज़्ड ट्रांसक्रिप्शन, ज़ीरो-शॉट वॉइस क्लोनिंग, लॉन्ग-फ़ॉर्म स्पीच सिंथेसिस — Apple Silicon, Android, Windows, और एम्बेडेड Linux पर। कोई क्लाउड API नहीं, कोई प्रति-मिनट कीमत नहीं, कोई डेटा डिवाइस से बाहर नहीं।

शुरू करें GitHub

Apple · Homebrew

brew install speech

Android · Gradle

implementation("audio.soniqo:speech:0.0.9")

नवीनतम ब्लॉग पोस्ट

वास्तविक उत्पादों के लिए ऑन-डिवाइस स्पीच।

Soniqo के बेंचमार्क, मॉडल नोट्स और शिपिंग विवरण।

सभी पोस्ट

7 जुलाई 2026 · Soniqo का ब्लॉग

देखें

MacBook पर लोकल स्पीच AI

चार मिनट का ओपन-सोर्स लाइब्रेरी टूर: Nemotron Streaming से रियलटाइम ट्रांसक्रिप्शन, PersonaPlex से लोकल स्पीच-टू-स्पीच, और VoxCPM2 से 48 kHz वॉइस क्लोनिंग — हर डेमो लैपटॉप पर ही चलता है।

YouTube पर देखें

आप क्या बना सकते हैं

तीन ऑन-डिवाइस यूज़-केस ग्रुप।

हर ग्रुप में कई सब-यूज़-केस होते हैं जो Soniqo कॉम्पोनेंट्स से जुड़े होते हैं। ऑडियो डालिए, बातचीत, ट्रांसक्रिप्ट या जेनरेट की हुई आवाज़ पाइए — लोकल, रियल-टाइम में।

कन्वर्सेशनल

वॉइस एजेंट

वॉइस-फ़र्स्ट इंटरफ़ेस बनाइए — फ़ुल-डुप्लेक्स speech-to-speech से लेकर वेक-वर्ड-संचालित कंपोज़ेबल पाइपलाइन तक, सब लोकल।

Learn more

ऑडियो अंडरस्टैंडिंग

ट्रांसक्रिप्शन

ऑडियो को संरचित टेक्स्ट में बदलिए — लाइव कैप्शन और डिक्टेशन के लिए रियल-टाइम स्ट्रीमिंग, अभिलेखों के लिए उच्च-सटीक बैच, हर वक्ता का नाम देने के लिए डायराइज़्ड।

Learn more

कंटेंट क्रिएशन

स्पीच जनरेशन

किसी भी आवाज़ में वाणी बनाइए — कुछ सेकंड में आवाज़ क्लोन कीजिए, घंटों तक ऑडियोबुक नैरेट कीजिए, या मल्टी-स्पीकर पॉडकास्ट कास्ट कीजिए — पूरी तरह ऑफ़लाइन।

Learn more

सभी कॉम्पोनेंट्स

तीस से ज़्यादा मॉडल। एक ही स्टैक।

ऊपर की यूज़-केस पाइपलाइन्स इन्हीं मॉडल्स से बनी हैं। किसी भी कॉम्पोनेंट का आर्किटेक्चर, CLI, Swift API और बेंचमार्क देखने के लिए उसे चुनिए। सभी Apple Silicon पर चलते हैं, ज़्यादातर Android और Linux पर भी।

स्पीच-टू-टेक्स्ट

Qwen3-ASR

52 langs, RTF 0.06, 4-/8-bit

ऑन-डिवाइस स्पीच।असली प्रोडक्ट्स के लिए।

वास्तविक उत्पादों के लिए ऑन-डिवाइस स्पीच।

डिवाइस पर वॉइस एजेंट: एक पाइपलाइन, तीन मेमोरी बजट

वॉइस क्लोनिंग मॉडल, पाँच भाषाओं में मापे गए

VoxCPM2 के साथ 48 kHz पर आवाज़ क्लोनिंग

MacBook पर लोकल स्पीच AI

तीन ऑन-डिवाइस यूज़-केस ग्रुप।

वॉइस एजेंट

ट्रांसक्रिप्शन

स्पीच जनरेशन

तीस से ज़्यादा मॉडल। एक ही स्टैक।

स्पीच-टू-टेक्स्ट

टेक्स्ट-टू-स्पीच

ऑडियो विश्लेषण

संगीत और ऑडियो उत्पादन

LLM और स्पीच-टू-स्पीच

ऑन-डिवाइस स्पीच।
असली प्रोडक्ट्स के लिए।