Bắt đầu — Windows
speech-core biên dịch nguyên bản trên Windows x86_64 — chính engine C++17 đang vận hành Android và Linux. Cả hai backend suy luận đều hoạt động trên Windows: LiteRT (được kiểm thử trong CI với mỗi thay đổi) và ONNX Runtime. Điều đó bao gồm chuyển giọng nói thành văn bản streaming (Nemotron, Parakeet), phát hiện hoạt động giọng nói, phân tách người nói, embedding người nói và chuyển văn bản thành giọng nói VoxCPM2 kèm nhân bản giọng nói — tất cả chạy cục bộ. Xem ma trận mô hình đầy đủ trên trang Speech Core.
Yêu cầu
- Windows 10/11, x86_64
- Visual Studio 2022 hoặc Build Tools (workload MSVC C++)
- CMake 3.16+
- Python 3.11+ (script thiết lập LiteRT trích xuất wheel
ai-edge-litertcủa Google) - Git, bao gồm Git Bash (script thiết lập là một shell script)
Biên dịch với backend LiteRT
Chạy từ môi trường phát triển MSVC (ví dụ, mở Git Bash từ x64 Native Tools Command Prompt) để dumpbin và lib có sẵn trên PATH — script thiết lập dùng chúng để tạo import library (libLiteRt.lib) từ DLL runtime, thứ mà wheel của Google không kèm theo:
git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_LITERT=ON \
-DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release
Windows phân giải DLL thông qua PATH, vì vậy hãy thêm thư mục litert vào đầu PATH trước khi chạy bất cứ thứ gì nạp backend này:
export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release
Biên dịch với backend ONNX Runtime
Thay vào đó (hoặc song song), hãy bật backend ONNX với ORT_DIR trỏ đến một bản phát hành onnxruntime-win-x64 đã giải nén. Tăng tốc NVIDIA CUDA / TensorRT tùy chọn có sẵn qua -DSPEECH_CORE_WITH_CUDA=ON — được kiểm soát lúc chạy bởi SPEECH_CORE_ORT_PROVIDER với cơ chế âm thầm chuyển về CPU — và là đích nhắm cho PersonaPlex 7B giọng nói tới giọng nói song công:
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_ONNX=ON \
-DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
CLI nhân bản giọng nói (speech_voxcpm2_clone) được build tự động mỗi khi SPEECH_CORE_WITH_LITERT=ON — xem examples/litert. Bạn thích giao diện đồ họa hơn? Speech Studio cung cấp trình cài đặt Windows với cùng engine VoxCPM2.
Bước tiếp theo
- Speech Core — ma trận mô hình đầy đủ (cột ONNX / LiteRT) và các ví dụ API khởi đầu nhanh
- docs/pipeline.md — vòng lặp tác nhân giọng nói
VoicePipeline - huggingface.co/soniqo — trọng số mô hình đã chuyển đổi
- Discord — câu hỏi và hỗ trợ