यूज़-केस · कन्वर्सेशनल

आवाज़ अंदर।
आवाज़ बाहर।

वॉइस-फ़र्स्ट इंटरफ़ेस के तीन रूप — एक ही फ़ुल-डुप्लेक्स speech-to-speech मॉडल, एक कंपोज़ेबल wake → VAD → ASR → LLM → TTS पाइपलाइन जिस पर पूरा नियंत्रण आपका, और बिना हाथ लगाए प्रवेश के लिए वेक-वर्ड एक्टिवेशन। सब ऑन-डिवाइस, कोई क्लाउड API नहीं, ऑडियो डिवाइस से बाहर नहीं।

शुरू करें speech-to-speech गाइड

डेस्कटॉप ऐप्स

Studio आवाज़ें बनाता है। Runner उनसे बात करता है।

Speech Studio और Runner उसी स्थानीय स्पीच स्टैक के दो रूप हैं: एक वॉइस प्रोडक्शन के लिए, दूसरा लाइव वॉइस-एजेंट इंटरैक्शन के लिए।

Runner Agent

पूरे माइक-से-वॉइस साथी लूप को स्थानीय रूप से चलाएँ; मौजूदा पूर्वावलोकन कॉम्पैक्ट Apple Silicon मेमोरी बजट को लक्ष्य करता है।

Runner आज़माएँ

Speech Studio

Mac पर स्थानीय रूप से आवाज़ें क्लोन करें, नमूनों की तुलना करें और कई वक्ताओं वाली स्पीच जनरेट करें।

Speech Studio खोलें

तीन सब-यूज़-केस

अपने प्रोडक्ट से मेल खाता रूप चुनें।

ड्रॉप-इन डायलॉग मॉडल, प्रति-स्टेज नियंत्रण वाली कंपोज़ेबल पाइपलाइन, या केवल पतला वेक-वर्ड ट्रिगर। हर रूप पूरी तरह डिवाइस पर चलता है।

फ़ुल-डुप्लेक्स speech-to-speech

एक ही मॉडल माइक इनपुट लेकर वॉइस आउटपुट देता है। ड्रॉप-इन OpenAI-Realtime-कम्पैटिबल WebSocket; न्यूनतम कोड, अंदर ब्लैक-बॉक्स।

कंपोज़ेबल वॉइस पाइपलाइन

वेक-वर्ड → VAD → स्ट्रीमिंग ASR → ऑन-डिवाइस LLM → TTS। हर स्टेज पर नियंत्रण, ट्रांसक्रिप्ट दृश्यमान, इंजन आज़ाद बदलें। अपनी ख़ुद की Siri बनाएँ।

वेक-वर्ड एक्टिवेशन

किसी भी वॉइस फ़्लो के लिए बिना हाथ का ट्रिगर। प्रति-फ़्रेज़ थ्रेसहोल्ड वाले कस्टम कीवर्ड, डिवाइस पर 5 MB से कम, रियल-टाइम से 26×।

और गहराई में पढ़ें

कॉम्पोनेंट गाइड्स।

PersonaPlex 7B

Qwen3.5 Chat

Streaming Dictation

Voice Activity Detection

Wake-Word / KWS

speech-server

आवाज़ अंदर।आवाज़ बाहर।

Studio आवाज़ें बनाता है। Runner उनसे बात करता है।

अपने प्रोडक्ट से मेल खाता रूप चुनें।

कॉम्पोनेंट गाइड्स।

आवाज़ अंदर।
आवाज़ बाहर।