शुरुआत — Windows

speech-core Windows x86_64 पर नेटिव रूप से बिल्ड होता है — वही C++17 इंजन जो Android और Linux को संचालित करता है। दोनों इन्फ़रेंस बैकएंड Windows पर काम करते हैं: LiteRT (हर बदलाव पर CI में टेस्ट किया जाता है) और ONNX Runtime। इसमें स्ट्रीमिंग स्पीच-टू-टेक्स्ट (Nemotron, Parakeet), वॉयस एक्टिविटी डिटेक्शन, स्पीकर डायराइज़ेशन, स्पीकर एम्बेडिंग, और वॉयस क्लोनिंग के साथ VoxCPM2 टेक्स्ट-टू-स्पीच शामिल हैं — सब कुछ लोकल रूप से चलता है। पूरा मॉडल मैट्रिक्स Speech Core पेज पर देखें।

आवश्यकताएँ

LiteRT बैकएंड के साथ बिल्ड करें

किसी MSVC डेवलपर एनवायरनमेंट से चलाएँ (उदाहरण के लिए, x64 Native Tools Command Prompt से Git Bash लॉन्च करें) ताकि dumpbin और lib PATH पर उपलब्ध हों — सेटअप स्क्रिप्ट इनका उपयोग रनटाइम DLL से इम्पोर्ट लाइब्रेरी (libLiteRt.lib) जनरेट करने के लिए करती है, जो Google की wheel में शामिल नहीं होती:

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

Windows DLL को PATH के माध्यम से रिज़ॉल्व करता है, इसलिए बैकएंड लोड करने वाली कोई भी चीज़ चलाने से पहले litert डायरेक्टरी को PATH में आगे जोड़ें:

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

ONNX Runtime बैकएंड के साथ बिल्ड करें

वैकल्पिक रूप से (या इसके अतिरिक्त), ONNX बैकएंड सक्षम करें — इसके लिए ORT_DIR को किसी एक्सट्रैक्ट की गई onnxruntime-win-x64 रिलीज़ पर पॉइंट करें। वैकल्पिक NVIDIA CUDA / TensorRT एक्सेलेरेशन -DSPEECH_CORE_WITH_CUDA=ON के माध्यम से उपलब्ध है — SPEECH_CORE_ORT_PROVIDER द्वारा रनटाइम-गेटेड, साइलेंट CPU फ़ॉलबैक के साथ — और यही PersonaPlex 7B फ़ुल-डुप्लेक्स स्पीच-टू-स्पीच का टारगेट है:

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
वॉयस क्लोनिंग, बिल्ट-इन

जब भी SPEECH_CORE_WITH_LITERT=ON हो, एक वॉयस-क्लोनिंग CLI (speech_voxcpm2_clone) स्वचालित रूप से बिल्ड होती है — देखें examples/litert। GUI पसंद करते हैं? Speech Studio उसी VoxCPM2 इंजन के साथ एक Windows इंस्टॉलर प्रदान करता है।

अगले कदम