Question 1

क्या speech-swift iOS पर काम करता है?

Accepted Answer

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3, और WeSpeaker सभी iOS 18+ पर CoreML के माध्यम से Neural Engine पर चलते हैं। MLX-आधारित मॉडल (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) के लिए Apple Silicon पर macOS 15+ आवश्यक है।

Question 2

क्या speech-swift को इंटरनेट कनेक्शन की ज़रूरत है?

Accepted Answer

केवल HuggingFace से शुरुआती मॉडल डाउनलोड के लिए। इसके बाद, सभी इन्फ़रेंस बिना नेटवर्क एक्सेस के पूरी तरह ऑफ़लाइन चलती है। कोई क्लाउड API नहीं, कोई API key नहीं चाहिए।

Question 3

speech-swift की तुलना Whisper से कैसी है?

Accepted Answer

Qwen3-ASR-0.6B M2 Max पर RTF 0.06 प्राप्त करता है — whisper.cpp के माध्यम से Whisper-large-v3 (RTF 0.10) से 40% तेज़ — और 52 भाषाओं में तुलनीय सटीकता के साथ। speech-swift एक नेटिव Swift async/await API प्रदान करता है, जबकि whisper.cpp को C++ ब्रिज की आवश्यकता होती है।

Question 4

कौन से Apple Silicon चिप समर्थित हैं?

Accepted Answer

सभी M-सीरीज़ चिप: M1, M2, M3, M4 और उनके Pro/Max/Ultra वैरिएंट। macOS 15+ (Sequoia) या iOS 18+ आवश्यक।

Question 5

macOS 15 / iOS 18 क्यों आवश्यक है?

Accepted Answer

यह न्यूनतम आवश्यकता MLState से आती है —— Apple की परसिस्टेंट ANE स्टेट API, जो macOS 15 और iOS 18 में पेश की गई। CoreML पाइपलाइन (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) MLState का उपयोग करती हैं ताकि KV कैश हर टोकन स्टेप पर बाहर निकाले जाने के बजाय Neural Engine पर बना रहे। इससे पिछले स्टेटलेस दृष्टिकोण की तुलना में प्रति-टोकन CoreML लेटेंसी में 30–50% की कमी आई।

Question 6

क्या मैं इसे व्यावसायिक ऐप में उपयोग कर सकता हूँ?

Accepted Answer

हाँ। speech-swift Apache 2.0 के तहत लाइसेंस प्राप्त है। अंतर्निहित मॉडल वेट्स के अपने लाइसेंस हैं — विवरण के लिए प्रत्येक मॉडल का HuggingFace पृष्ठ देखें।

Question 7

speech-swift को कितनी मेमोरी चाहिए?

Accepted Answer

~3 MB (Silero VAD) से ~6.5 GB (PersonaPlex 7B) तक। Kokoro TTS ~200 MB उपयोग करता है, Qwen3-ASR ~2.2 GB, Qwen3-TTS ~2 GB। Neural Engine पर CoreML और GPU पर MLX का उपयोग करके कई मॉडल एक साथ चल सकते हैं।

Question 8

क्या मैं कई मॉडल एक साथ चला सकता हूँ?

Accepted Answer

हाँ। प्रतिस्पर्धा से बचने के लिए Neural Engine पर CoreML मॉडल और GPU पर MLX मॉडल का उपयोग करें — उदाहरण के लिए, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX)।

Question 9

क्या REST API है?

Accepted Answer

हाँ। speech-server बाइनरी सभी मॉडलों को HTTP REST और WebSocket एंडपॉइंट्स के माध्यम से एक्सपोज़ करती है, जिसमें /v1/realtime पर OpenAI Realtime API-संगत WebSocket शामिल है।

Question 10

मैं speech-swift कैसे इंस्टॉल करूँ?

Accepted Answer

Homebrew के माध्यम से: brew install soniqo/tap/speech। या Swift Package Manager निर्भरता के रूप में जोड़ें: .package(url: "https://github.com/soniqo/speech-swift", branch: "main")।

Question 11

कौन से स्पीच मॉडल उपलब्ध हैं?

Accepted Answer

स्पीच-टू-टेक्स्ट: Qwen3-ASR (52 भाषाएँ) और Parakeet TDT (25 भाषाएँ)। टेक्स्ट-टू-स्पीच: Qwen3-TTS (स्ट्रीमिंग, 10 भाषाएँ), CosyVoice3 (वॉयस क्लोनिंग, 9 भाषाएँ), और Kokoro-82M (iOS-ready, 50 वॉयस)। स्पीच-टू-स्पीच: PersonaPlex 7B (फुल-डुप्लेक्स)। साथ ही: Silero/Pyannote VAD, स्पीकर डायराइज़ेशन (Pyannote + Sortformer), WeSpeaker स्पीकर एम्बेडिंग, और DeepFilterNet3 नॉइज़ सप्रेशन।

Question 12

क्या Soniqo Android पर काम करता है?

Accepted Answer

हाँ। speech-android SDK ONNX Runtime और NNAPI एक्सेलेरेशन के साथ एक Kotlin API प्रदान करता है। Android 8+ (API 26) पर arm64-v8a का समर्थन करता है। मॉडल पहली बार उपयोग पर HuggingFace से स्वतः डाउनलोड होते हैं।

Question 13

क्या Soniqo Linux पर काम करता है?

Accepted Answer

हाँ। speech-core प्रोजेक्ट में एम्बेडेड और ऑटोमोटिव Linux के लिए examples/linux पर एक C API शामिल है। Qualcomm हार्डवेयर के लिए वैकल्पिक QNN एक्सेलेरेशन के साथ ONNX Runtime का उपयोग करता है। ARM64 और x86_64 का समर्थन करता है।

Question 14

क्या मैं प्लेटफ़ॉर्म के बीच मॉडल साझा कर सकता हूँ?

Accepted Answer

कोर मॉडल (Parakeet, Kokoro, Silero, DeepFilter) Android और Linux दोनों पर ONNX फ़ॉर्मेट का उपयोग करते हैं। Apple CoreML/MLX फ़ॉर्मेट का उपयोग करता है। समान अंतर्निहित वेट्स, अलग-अलग एक्सपोर्ट फ़ॉर्मेट।

अक्सर पूछे जाने वाले प्रश्न