Question 1

هل يعمل speech-swift على iOS؟

Accepted Answer

تعمل نماذج Kokoro TTS وQwen3.5-Chat وSilero VAD وParakeet ASR وDeepFilterNet3 وWeSpeaker جميعها على iOS 18+ عبر CoreML على Neural Engine. أما النماذج المعتمدة على MLX (Qwen3-ASR وQwen3-TTS وQwen3.5-Chat MLX وPersonaPlex) فتتطلب macOS 15+ على Apple Silicon.

Question 2

هل يحتاج speech-swift إلى اتصال بالإنترنت؟

Accepted Answer

فقط لتنزيل النموذج لأول مرة من HuggingFace. بعد ذلك، يعمل كل الاستدلال دون اتصال بالكامل دون أي وصول إلى الشبكة. لا توجد واجهات سحابية ولا حاجة إلى مفاتيح API.

Question 3

كيف يقارن speech-swift بـ Whisper؟

Accepted Answer

يحقق Qwen3-ASR-0.6B معامل RTF يبلغ 0.012 على M5 Pro — أي أسرع بحوالي 7× من WhisperKit Large-v3 Turbo (RTF 0.084) وأسرع بنسبة 40% من Whisper-large-v3 عبر whisper.cpp (RTF 0.10) — بدقة مماثلة عبر 52 لغة. يوفر speech-swift واجهة Swift أصلية async/await، بينما يتطلب whisper.cpp جسرًا بلغة C++.

Question 4

ما شرائح Apple Silicon المدعومة؟

Accepted Answer

جميع شرائح سلسلة M: M1 وM2 وM3 وM4 وإصداراتها Pro/Max/Ultra. تتطلب macOS 15+ (Sequoia) أو iOS 18+.

Question 5

لماذا يتطلب macOS 15 / iOS 18؟

Accepted Answer

الحد الأدنى يأتي من MLState — واجهة الحالة المستديمة لـ ANE من Apple، التي طُرحت في macOS 15 وiOS 18. تستخدم خطوط أنابيب CoreML (Qwen3-ASR وQwen3-Chat وQwen3-TTS) واجهة MLState للحفاظ على ذاكرة التخزين المؤقت KV مقيمة على Neural Engine عبر خطوات التوكن، بدلًا من نقلها داخلًا وخارجًا في كل خطوة. خفّض ذلك زمن استجابة CoreML لكل توكن بنسبة 30–50% مقارنةً بالنهج عديم الحالة السابق.

Question 6

هل يمكنني استخدام speech-swift في تطبيق تجاري؟

Accepted Answer

نعم. يُرخَّص speech-swift بموجب Apache 2.0. أوزان النماذج الأساسية لها تراخيصها الخاصة — راجع صفحة HuggingFace لكل نموذج للمزيد من التفاصيل.

Question 7

ما حجم الذاكرة التي يحتاجها speech-swift؟

Accepted Answer

من ~3 ميغابايت (Silero VAD) إلى ~6.5 غيغابايت (PersonaPlex 7B). يستخدم Kokoro TTS نحو 200 ميغابايت، وQwen3-ASR نحو 2.2 غيغابايت، وQwen3-TTS نحو 2 غيغابايت. يمكن تشغيل عدة نماذج في الوقت نفسه باستخدام CoreML على Neural Engine إلى جانب MLX على وحدة معالجة الرسومات.

Question 8

هل يمكنني تشغيل عدة نماذج في وقت واحد؟

Accepted Answer

نعم. استخدم نماذج CoreML على Neural Engine إلى جانب نماذج MLX على وحدة معالجة الرسومات لتجنّب التنافس — على سبيل المثال: Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Question 9

هل توجد واجهة REST API؟

Accepted Answer

نعم. يكشف الملف التنفيذي speech-server جميع النماذج عبر نقاط نهاية HTTP REST وWebSocket، بما في ذلك WebSocket متوافق مع OpenAI Realtime API على /v1/realtime.

Question 10

كيف أثبّت speech-swift؟

Accepted Answer

عبر Homebrew: brew install speech. أو أضِفه كاعتمادية لـ Swift Package Manager: .package(url: "https://github.com/soniqo/speech-swift", branch: "main").

Question 11

ما نماذج الكلام المتوفرة؟

Accepted Answer

تفريغ النصوص: Qwen3-ASR (52 لغة) وParakeet TDT (25 لغة). توليد الكلام: Qwen3-TTS (بثّ، 10 لغات) وCosyVoice3 (استنساخ الصوت، 9 لغات) وKokoro-82M (جاهز لـ iOS، 50 صوتًا). كلام إلى كلام: PersonaPlex 7B (مزدوج الاتجاه الكامل). إضافةً إلى: VAD من Silero/Pyannote، فصل المتحدّثين (Pyannote + Sortformer)، تضمينات المتحدّث WeSpeaker، وكبت الضوضاء DeepFilterNet3.

Question 12

هل يعمل Soniqo على Android؟

Accepted Answer

نعم. توفّر حزمة speech-android SDK واجهة Kotlin مع تسريع ONNX Runtime وNNAPI. تدعم arm64-v8a على Android 8+ (API 26). تُنزَّل النماذج تلقائيًا من HuggingFace عند الاستخدام الأول.

Question 13

هل يعمل Soniqo على Linux؟

Accepted Answer

نعم. يشمل مشروع speech-core واجهة C لأنظمة Linux المضمّنة وأنظمة السيارات في examples/linux. تعمل النماذج عبر خلفيتَي ONNX Runtime أو LiteRT، مع تسريع QNN اختياري لعتاد Qualcomm. يدعم ARM64 وx86_64.

Question 14

هل يعمل Soniqo على Windows؟

Accepted Answer

نعم. يُبنى Speech Core على Windows x86_64 بكلتا خلفيتَي الاستدلال — ONNX Runtime وLiteRT — ليغطي تفريغ الكلام البثّي، وكشف النشاط الصوتي، والتقسيم حسب المتحدّث، وتحويل النص إلى كلام بنموذج VoxCPM2. كما يوفّر Speech Studio مثبِّتاً لـ Windows لاستنساخ الصوت محلياً.

Question 15

هل يمكنني مشاركة النماذج بين المنصّات؟

Accepted Answer

تستخدم النماذج الأساسية (Parakeet وKokoro وSilero وDeepFilter) صيغة ONNX على كلٍّ من Android وLinux وWindows. تستخدم Apple صيغتَي CoreML/MLX. أوزان أساسية واحدة، وصيغ تصدير مختلفة.

الأسئلة الشائعة