शुरुआत — Windows
speech-core Windows x86_64 पर नेटिव रूप से बिल्ड होता है — वही C++17 इंजन जो Android और Linux को संचालित करता है। दोनों इन्फ़रेंस बैकएंड Windows पर काम करते हैं: LiteRT (हर बदलाव पर CI में टेस्ट किया जाता है) और ONNX Runtime। इसमें स्ट्रीमिंग स्पीच-टू-टेक्स्ट (Nemotron, Parakeet), वॉयस एक्टिविटी डिटेक्शन, स्पीकर डायराइज़ेशन, स्पीकर एम्बेडिंग, और वॉयस क्लोनिंग के साथ VoxCPM2 टेक्स्ट-टू-स्पीच शामिल हैं — सब कुछ लोकल रूप से चलता है। पूरा मॉडल मैट्रिक्स Speech Core पेज पर देखें।
आवश्यकताएँ
- Windows 10/11, x86_64
- Visual Studio 2022 या Build Tools (MSVC C++ workload)
- CMake 3.16+
- Python 3.11+ (LiteRT सेटअप स्क्रिप्ट Google की
ai-edge-litertwheel एक्सट्रैक्ट करती है) - Git, जिसमें Git Bash शामिल है (सेटअप स्क्रिप्ट एक shell स्क्रिप्ट है)
LiteRT बैकएंड के साथ बिल्ड करें
किसी MSVC डेवलपर एनवायरनमेंट से चलाएँ (उदाहरण के लिए, x64 Native Tools Command Prompt से Git Bash लॉन्च करें) ताकि dumpbin और lib PATH पर उपलब्ध हों — सेटअप स्क्रिप्ट इनका उपयोग रनटाइम DLL से इम्पोर्ट लाइब्रेरी (libLiteRt.lib) जनरेट करने के लिए करती है, जो Google की wheel में शामिल नहीं होती:
git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_LITERT=ON \
-DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release
Windows DLL को PATH के माध्यम से रिज़ॉल्व करता है, इसलिए बैकएंड लोड करने वाली कोई भी चीज़ चलाने से पहले litert डायरेक्टरी को PATH में आगे जोड़ें:
export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release
ONNX Runtime बैकएंड के साथ बिल्ड करें
वैकल्पिक रूप से (या इसके अतिरिक्त), ONNX बैकएंड सक्षम करें — इसके लिए ORT_DIR को किसी एक्सट्रैक्ट की गई onnxruntime-win-x64 रिलीज़ पर पॉइंट करें। वैकल्पिक NVIDIA CUDA / TensorRT एक्सेलेरेशन -DSPEECH_CORE_WITH_CUDA=ON के माध्यम से उपलब्ध है — SPEECH_CORE_ORT_PROVIDER द्वारा रनटाइम-गेटेड, साइलेंट CPU फ़ॉलबैक के साथ — और यही PersonaPlex 7B फ़ुल-डुप्लेक्स स्पीच-टू-स्पीच का टारगेट है:
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_ONNX=ON \
-DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
जब भी SPEECH_CORE_WITH_LITERT=ON हो, एक वॉयस-क्लोनिंग CLI (speech_voxcpm2_clone) स्वचालित रूप से बिल्ड होती है — देखें examples/litert। GUI पसंद करते हैं? Speech Studio उसी VoxCPM2 इंजन के साथ एक Windows इंस्टॉलर प्रदान करता है।
अगले कदम
- Speech Core — पूरा मॉडल मैट्रिक्स (ONNX / LiteRT कॉलम) और क्विक-स्टार्ट API उदाहरण
- docs/pipeline.md —
VoicePipelineवॉइस-एजेंट लूप - huggingface.co/soniqo — कन्वर्ट किए गए मॉडल वेट्स
- Discord — प्रश्न और सहायता