الأسئلة الشائعة

هل يعمل speech-swift على iOS؟

تعمل نماذج Kokoro TTS وQwen3.5-Chat وSilero VAD وParakeet ASR وDeepFilterNet3 وWeSpeaker جميعها على iOS 18+ عبر CoreML على Neural Engine. أما النماذج المعتمدة على MLX (Qwen3-ASR وQwen3-TTS وQwen3.5-Chat MLX وPersonaPlex) فتتطلب macOS 15+ على Apple Silicon.

هل يحتاج إلى اتصال بالإنترنت؟

فقط لتنزيل النموذج لأول مرة من HuggingFace (تلقائيًا، يُخزَّن في ~/Library/Caches/qwen3-speech/). بعد ذلك، يعمل كل الاستدلال دون اتصال بالكامل دون أي وصول إلى الشبكة. لا توجد واجهات سحابية ولا حاجة إلى مفاتيح API.

كيف يقارن speech-swift بـ Whisper؟

يحقق Qwen3-ASR-0.6B RTF بقيمة 0.06 على M2 Max — أي أسرع بنسبة 40% من Whisper-large-v3 عبر whisper.cpp (RTF 0.10) — بدقة مماثلة عبر 52 لغة. يوفّر speech-swift واجهة Swift أصلية async/await، بينما يتطلب whisper.cpp جسرًا بلغة C++.

اطّلع على جداول المقارنة الكاملة بمعايير ASR وTTS مقابل whisper.cpp وApple SFSpeechRecognizer وAVSpeechSynthesizer وواجهات السحابة.

ما شرائح Apple Silicon المدعومة؟

جميع شرائح سلسلة M: M1 وM2 وM3 وM4 وإصداراتها Pro/Max/Ultra. تتطلب macOS 15+ (Sequoia) أو iOS 18+.

لماذا يتطلب macOS 15 / iOS 18؟

يأتي الحد الأدنى من MLState — واجهة الحالة المستديمة لـ ANE من Apple، التي طُرحت في macOS 15 وiOS 18. تستخدم خطوط أنابيب CoreML (Qwen3-ASR وQwen3-Chat وQwen3-TTS) واجهة MLState للحفاظ على ذاكرة التخزين المؤقت KV مقيمة على Neural Engine عبر خطوات التوكن، بدلًا من نقلها داخلًا وخارجًا في كل خطوة. خفّض ذلك زمن استجابة CoreML لكل توكن بنسبة 30–50% مقارنةً بالنهج عديم الحالة السابق.

هل يمكنني استخدامه في تطبيق تجاري؟

نعم. يُرخَّص speech-swift بموجب Apache 2.0. أوزان النماذج الأساسية لها تراخيصها الخاصة — راجع صفحة HuggingFace لكل نموذج للمزيد من التفاصيل.

ما حجم الذاكرة المطلوبة؟

من ~3 ميغابايت (Silero VAD) إلى ~6.5 غيغابايت (PersonaPlex 7B). الاستخدام النموذجي:

هل يمكنني تشغيل عدة نماذج في وقت واحد؟

نعم. استخدم نماذج CoreML على Neural Engine إلى جانب نماذج MLX على وحدة معالجة الرسومات لتجنّب التنافس — على سبيل المثال: Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

هل توجد واجهة REST API؟

نعم. يكشف الملف التنفيذي speech-server جميع النماذج عبر نقاط نهاية HTTP REST وWebSocket، بما في ذلك WebSocket متوافق مع OpenAI Realtime API على /v1/realtime. اطّلع على مرجع CLI لأوامر الخادم.

كيف أثبّته؟

Homebrew:

brew install soniqo/tap/speech

يثبّت ذلك واجهة speech CLI وخادم speech-server الخاص بـ HTTP/WebSocket في PATH لديك.

Swift Package Manager:

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

اطّلع على دليل ابدأ للحصول على التعليمات الكاملة.

ما نماذج الكلام المتوفرة؟

تفريغ النصوص: Qwen3-ASR (52 لغة، MLX) وParakeet TDT (25 لغة، CoreML).

توليد الكلام: Qwen3-TTS (بثّ، 10 لغات) وCosyVoice3 (استنساخ الصوت، 9 لغات) وKokoro-82M (جاهز لـ iOS، 50 صوتًا، 10 لغات).

كلام إلى كلام: PersonaPlex 7B (حوار مزدوج الاتجاه الكامل، 18 إعدادًا صوتيًا).

تحليل الصوت: VAD من Silero + Pyannote، فصل المتحدّثين (Pyannote + Sortformer)، تضمينات المتحدّث WeSpeaker، وكبت الضوضاء DeepFilterNet3.

LLM: Qwen3.5-0.8B Chat (على الجهاز، INT4 MLX + INT8 CoreML، توكنات بثّية).

هل يعمل Soniqo على Android؟

نعم. توفّر حزمة speech-android واجهة Kotlin مع تسريع عتاد ONNX Runtime وNNAPI. تدعم arm64-v8a على Android 8+ (API 26). تُنزَّل النماذج تلقائيًا من HuggingFace عند الاستخدام الأول (~1.2 غيغابايت). اطّلع على ابدأ — Android لتعليمات الإعداد.

هل يعمل Soniqo على Linux؟

نعم. يشمل مشروع speech-core واجهة بلغة C لأنظمة Linux المضمّنة وأنظمة السيارات (Yocto، أجهزة الحافة) في examples/linux. يستخدم ONNX Runtime مع تسريع QNN اختياري لعتاد Qualcomm. يدعم ARM64 وx86_64. اطّلع على ابدأ — Linux لتعليمات الإعداد.

هل يمكنني مشاركة النماذج بين المنصّات؟

تستخدم النماذج الأساسية (Parakeet وKokoro وSilero وDeepFilter) صيغة ONNX على كلٍّ من Android وLinux. تستخدم Apple صيغتَي CoreML/MLX. أوزان أساسية واحدة، وصيغ تصدير مختلفة مُحسَّنة لتسريع عتاد كل منصّة.