अक्सर पूछे जाने वाले प्रश्न

क्या speech-swift iOS पर काम करता है?

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3, और WeSpeaker सभी iOS 17+ पर CoreML के माध्यम से Neural Engine पर चलते हैं। MLX-आधारित मॉडल (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) के लिए Apple Silicon पर macOS 14+ आवश्यक है।

क्या इसे इंटरनेट कनेक्शन की ज़रूरत है?

केवल HuggingFace से शुरुआती मॉडल डाउनलोड के लिए (स्वचालित, ~/Library/Caches/qwen3-speech/ में कैश)। इसके बाद, सभी इन्फ़रेंस बिना नेटवर्क एक्सेस के पूरी तरह ऑफ़लाइन चलती है। कोई क्लाउड API नहीं, कोई API key नहीं चाहिए।

speech-swift की तुलना Whisper से कैसी है?

Qwen3-ASR-0.6B M2 Max पर RTF 0.06 प्राप्त करता है — whisper.cpp के माध्यम से Whisper-large-v3 (RTF 0.10) से 40% तेज़ — और 52 भाषाओं में तुलनीय सटीकता के साथ। speech-swift एक नेटिव Swift async/await API प्रदान करता है, जबकि whisper.cpp को C++ ब्रिज की आवश्यकता होती है।

whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer, और क्लाउड API के विरुद्ध ASR और TTS बेंचमार्क के लिए पूर्ण तुलना तालिकाएँ देखें।

कौन से Apple Silicon चिप समर्थित हैं?

सभी M-सीरीज़ चिप: M1, M2, M3, M4 और उनके Pro/Max/Ultra वैरिएंट। macOS 14+ (Sonoma) या iOS 17+ आवश्यक।

क्या मैं इसे व्यावसायिक ऐप में उपयोग कर सकता हूँ?

हाँ। speech-swift Apache 2.0 के तहत लाइसेंस प्राप्त है। अंतर्निहित मॉडल वेट्स के अपने लाइसेंस हैं — विवरण के लिए प्रत्येक मॉडल का HuggingFace पृष्ठ देखें।

इसे कितनी मेमोरी चाहिए?

~3 MB (Silero VAD) से ~6.5 GB (PersonaPlex 7B) तक। सामान्य उपयोग:

क्या मैं कई मॉडल एक साथ चला सकता हूँ?

हाँ। प्रतिस्पर्धा से बचने के लिए Neural Engine पर CoreML मॉडल और GPU पर MLX मॉडल का उपयोग करें — उदाहरण के लिए, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX)।

क्या REST API है?

हाँ। audio-server बाइनरी सभी मॉडलों को HTTP REST और WebSocket एंडपॉइंट्स के माध्यम से एक्सपोज़ करती है, जिसमें /v1/realtime पर OpenAI Realtime API-संगत WebSocket शामिल है। सर्वर कमांड के लिए CLI संदर्भ देखें।

मैं इसे कैसे इंस्टॉल करूँ?

Homebrew:

brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speech

Swift Package Manager:

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

पूर्ण निर्देशों के लिए शुरुआत करें गाइड देखें।

कौन से स्पीच मॉडल उपलब्ध हैं?

स्पीच-टू-टेक्स्ट: Qwen3-ASR (52 भाषाएँ, MLX) और Parakeet TDT (25 भाषाएँ, CoreML)।

टेक्स्ट-टू-स्पीच: Qwen3-TTS (स्ट्रीमिंग, 10 भाषाएँ), CosyVoice3 (वॉयस क्लोनिंग, 9 भाषाएँ), और Kokoro-82M (iOS-ready, 50 वॉयस, 10 भाषाएँ)।

स्पीच-टू-स्पीच: PersonaPlex 7B (फुल-डुप्लेक्स डायलॉग, 18 वॉयस प्रीसेट)।

ऑडियो विश्लेषण: Silero + Pyannote VAD, स्पीकर डायराइज़ेशन (Pyannote + Sortformer), WeSpeaker स्पीकर एम्बेडिंग, और DeepFilterNet3 नॉइज़ सप्रेशन।

LLM: Qwen3.5-0.8B Chat (ऑन-डिवाइस, INT4 MLX + INT8 CoreML, स्ट्रीमिंग टोकन)।

क्या Soniqo Android पर काम करता है?

हाँ। speech-android SDK ONNX Runtime और NNAPI हार्डवेयर एक्सेलेरेशन के साथ एक Kotlin API प्रदान करता है। Android 8+ (API 26) पर arm64-v8a का समर्थन करता है। मॉडल पहली बार उपयोग पर HuggingFace से स्वतः डाउनलोड होते हैं (~1.2 GB)। सेटअप निर्देशों के लिए शुरुआत करें — Android देखें।

क्या Soniqo Linux पर काम करता है?

हाँ। speech-android प्रोजेक्ट में एम्बेडेड और ऑटोमोटिव Linux (Yocto, एज डिवाइस) के लिए एक C API शामिल है। Qualcomm हार्डवेयर के लिए वैकल्पिक QNN एक्सेलेरेशन के साथ ONNX Runtime का उपयोग करता है। ARM64 और x86_64 का समर्थन करता है। सेटअप निर्देशों के लिए शुरुआत करें — Linux देखें।

क्या मैं प्लेटफ़ॉर्म के बीच मॉडल साझा कर सकता हूँ?

कोर मॉडल (Parakeet, Kokoro, Silero, DeepFilter) Android और Linux दोनों पर ONNX फ़ॉर्मेट का उपयोग करते हैं। Apple CoreML/MLX फ़ॉर्मेट का उपयोग करता है। समान अंतर्निहित वेट्स, प्रत्येक प्लेटफ़ॉर्म के हार्डवेयर एक्सेलेरेशन के लिए अनुकूलित विभिन्न एक्सपोर्ट फ़ॉर्मेट।