अक्सर पूछे जाने वाले प्रश्न

क्या speech-swift iOS पर काम करता है?

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3, और WeSpeaker सभी iOS 18+ पर CoreML के माध्यम से Neural Engine पर चलते हैं। MLX-आधारित मॉडल (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) के लिए Apple Silicon पर macOS 15+ आवश्यक है।

क्या इसे इंटरनेट कनेक्शन की ज़रूरत है?

केवल HuggingFace से शुरुआती मॉडल डाउनलोड के लिए (स्वचालित, ~/Library/Caches/qwen3-speech/ में कैश)। इसके बाद, सभी इन्फ़रेंस बिना नेटवर्क एक्सेस के पूरी तरह ऑफ़लाइन चलती है। कोई क्लाउड API नहीं, कोई API key नहीं चाहिए।

speech-swift की तुलना Whisper से कैसी है?

Qwen3-ASR-0.6B M2 Max पर RTF 0.06 प्राप्त करता है — whisper.cpp के माध्यम से Whisper-large-v3 (RTF 0.10) से 40% तेज़ — और 52 भाषाओं में तुलनीय सटीकता के साथ। speech-swift एक नेटिव Swift async/await API प्रदान करता है, जबकि whisper.cpp को C++ ब्रिज की आवश्यकता होती है।

whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer, और क्लाउड API के विरुद्ध ASR और TTS बेंचमार्क के लिए पूर्ण तुलना तालिकाएँ देखें।

कौन से Apple Silicon चिप समर्थित हैं?

सभी M-सीरीज़ चिप: M1, M2, M3, M4 और उनके Pro/Max/Ultra वैरिएंट। macOS 15+ (Sequoia) या iOS 18+ आवश्यक।

macOS 15 / iOS 18 क्यों आवश्यक है?

यह न्यूनतम आवश्यकता MLState से आती है —— Apple की परसिस्टेंट ANE स्टेट API, जो macOS 15 और iOS 18 में पेश की गई। CoreML पाइपलाइन (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) MLState का उपयोग करती हैं ताकि KV कैश हर टोकन स्टेप पर बाहर निकाले जाने के बजाय Neural Engine पर बना रहे। इससे पिछले स्टेटलेस दृष्टिकोण की तुलना में प्रति-टोकन CoreML लेटेंसी में 30–50% की कमी आई।

क्या मैं इसे व्यावसायिक ऐप में उपयोग कर सकता हूँ?

हाँ। speech-swift Apache 2.0 के तहत लाइसेंस प्राप्त है। अंतर्निहित मॉडल वेट्स के अपने लाइसेंस हैं — विवरण के लिए प्रत्येक मॉडल का HuggingFace पृष्ठ देखें।

इसे कितनी मेमोरी चाहिए?

~3 MB (Silero VAD) से ~6.5 GB (PersonaPlex 7B) तक। सामान्य उपयोग:

क्या मैं कई मॉडल एक साथ चला सकता हूँ?

हाँ। प्रतिस्पर्धा से बचने के लिए Neural Engine पर CoreML मॉडल और GPU पर MLX मॉडल का उपयोग करें — उदाहरण के लिए, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX)।

क्या REST API है?

हाँ। speech-server बाइनरी सभी मॉडलों को HTTP REST और WebSocket एंडपॉइंट्स के माध्यम से एक्सपोज़ करती है, जिसमें /v1/realtime पर OpenAI Realtime API-संगत WebSocket शामिल है। सर्वर कमांड के लिए CLI संदर्भ देखें।

मैं इसे कैसे इंस्टॉल करूँ?

Homebrew:

brew install soniqo/tap/speech

यह आपके PATH में speech CLI और speech-server HTTP/WebSocket सर्वर दोनों को इंस्टॉल करता है।

Swift Package Manager:

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

पूर्ण निर्देशों के लिए शुरुआत करें गाइड देखें।

कौन से स्पीच मॉडल उपलब्ध हैं?

स्पीच-टू-टेक्स्ट: Qwen3-ASR (52 भाषाएँ, MLX) और Parakeet TDT (25 भाषाएँ, CoreML)।

टेक्स्ट-टू-स्पीच: Qwen3-TTS (स्ट्रीमिंग, 10 भाषाएँ), CosyVoice3 (वॉयस क्लोनिंग, 9 भाषाएँ), और Kokoro-82M (iOS-ready, 50 वॉयस, 10 भाषाएँ)।

स्पीच-टू-स्पीच: PersonaPlex 7B (फुल-डुप्लेक्स डायलॉग, 18 वॉयस प्रीसेट)।

ऑडियो विश्लेषण: Silero + Pyannote VAD, स्पीकर डायराइज़ेशन (Pyannote + Sortformer), WeSpeaker स्पीकर एम्बेडिंग, और DeepFilterNet3 नॉइज़ सप्रेशन।

LLM: Qwen3.5-0.8B Chat (ऑन-डिवाइस, INT4 MLX + INT8 CoreML, स्ट्रीमिंग टोकन)।

क्या Soniqo Android पर काम करता है?

हाँ। speech-android SDK ONNX Runtime और NNAPI हार्डवेयर एक्सेलेरेशन के साथ एक Kotlin API प्रदान करता है। Android 8+ (API 26) पर arm64-v8a का समर्थन करता है। मॉडल पहली बार उपयोग पर HuggingFace से स्वतः डाउनलोड होते हैं (~1.2 GB)। सेटअप निर्देशों के लिए शुरुआत करें — Android देखें।

क्या Soniqo Linux पर काम करता है?

हाँ। speech-core प्रोजेक्ट में एम्बेडेड और ऑटोमोटिव Linux (Yocto, एज डिवाइस) के लिए examples/linux पर एक C API शामिल है। Qualcomm हार्डवेयर के लिए वैकल्पिक QNN एक्सेलेरेशन के साथ ONNX Runtime का उपयोग करता है। ARM64 और x86_64 का समर्थन करता है। सेटअप निर्देशों के लिए शुरुआत करें — Linux देखें।

क्या मैं प्लेटफ़ॉर्म के बीच मॉडल साझा कर सकता हूँ?

कोर मॉडल (Parakeet, Kokoro, Silero, DeepFilter) Android और Linux दोनों पर ONNX फ़ॉर्मेट का उपयोग करते हैं। Apple CoreML/MLX फ़ॉर्मेट का उपयोग करता है। समान अंतर्निहित वेट्स, प्रत्येक प्लेटफ़ॉर्म के हार्डवेयर एक्सेलेरेशन के लिए अनुकूलित विभिन्न एक्सपोर्ट फ़ॉर्मेट।