البدء — Windows

يُبنى speech-core أصلياً على Windows x86_64 — وهو نفس محرّك C++17 الذي يشغّل Android وLinux. وتعمل خلفيتا الاستدلال كلتاهما على Windows: LiteRT (تُختبَر في CI مع كل تغيير) وONNX Runtime. يغطي ذلك تفريغ الكلام البثّي (Nemotron وParakeet)، وكشف النشاط الصوتي، والتقسيم حسب المتحدّث، وتضمينات المتحدّث، وتحويل النص إلى كلام بـ VoxCPM2 مع استنساخ الصوت — كل ذلك يعمل محلياً. اطّلع على مصفوفة النماذج الكاملة في صفحة Speech Core.

المتطلّبات

البناء باستخدام خلفية LiteRT

شغّل الأوامر من بيئة مطوّر MSVC (مثلاً، افتح Git Bash من x64 Native Tools Command Prompt) حتى يكون dumpbin وlib على PATH — يستخدمهما سكربت الإعداد لتوليد مكتبة الاستيراد (libLiteRt.lib) من DLL بيئة التشغيل، وهي مكتبة لا تشحنها حزمة wheel من Google:

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

يحلّ Windows ملفات DLL عبر PATH، لذا أضِف مجلّد litert في مقدّمة PATH قبل تشغيل أي شيء يحمّل الخلفية:

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

البناء باستخدام خلفية ONNX Runtime

بدلاً من ذلك (أو إضافةً إليه)، فعّل خلفية ONNX مع ضبط ORT_DIR ليُشير إلى إصدار onnxruntime-win-x64 مستخرَج. ويتوفّر تسريع NVIDIA CUDA / TensorRT اختياري عبر -DSPEECH_CORE_WITH_CUDA=ON — يُتحكَّم فيه وقت التشغيل عبر SPEECH_CORE_ORT_PROVIDER مع تراجع صامت إلى المعالج — وهو الهدف لتحويل الكلام إلى كلام ثنائي الاتجاه الكامل بنموذج PersonaPlex 7B:

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
استنساخ الصوت جاهز مباشرةً

تُبنى أداة سطر أوامر لاستنساخ الصوت (speech_voxcpm2_clone) تلقائياً كلّما كان SPEECH_CORE_WITH_LITERT=ON — اطّلع على examples/litert. تفضّل واجهة رسومية؟ يوفّر Speech Studio مثبّت Windows بنفس محرّك VoxCPM2.

الخطوات التالية