Bắt đầu — Windows

speech-core biên dịch nguyên bản trên Windows x86_64 — chính engine C++17 đang vận hành Android và Linux. Cả hai backend suy luận đều hoạt động trên Windows: LiteRT (được kiểm thử trong CI với mỗi thay đổi) và ONNX Runtime. Điều đó bao gồm chuyển giọng nói thành văn bản streaming (Nemotron, Parakeet), phát hiện hoạt động giọng nói, phân tách người nói, embedding người nói và chuyển văn bản thành giọng nói VoxCPM2 kèm nhân bản giọng nói — tất cả chạy cục bộ. Xem ma trận mô hình đầy đủ trên trang Speech Core.

Yêu cầu

Biên dịch với backend LiteRT

Chạy từ môi trường phát triển MSVC (ví dụ, mở Git Bash từ x64 Native Tools Command Prompt) để dumpbinlib có sẵn trên PATH — script thiết lập dùng chúng để tạo import library (libLiteRt.lib) từ DLL runtime, thứ mà wheel của Google không kèm theo:

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

Windows phân giải DLL thông qua PATH, vì vậy hãy thêm thư mục litert vào đầu PATH trước khi chạy bất cứ thứ gì nạp backend này:

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

Biên dịch với backend ONNX Runtime

Thay vào đó (hoặc song song), hãy bật backend ONNX với ORT_DIR trỏ đến một bản phát hành onnxruntime-win-x64 đã giải nén. Tăng tốc NVIDIA CUDA / TensorRT tùy chọn có sẵn qua -DSPEECH_CORE_WITH_CUDA=ON — được kiểm soát lúc chạy bởi SPEECH_CORE_ORT_PROVIDER với cơ chế âm thầm chuyển về CPU — và là đích nhắm cho PersonaPlex 7B giọng nói tới giọng nói song công:

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
Nhân bản giọng nói có sẵn ngay

CLI nhân bản giọng nói (speech_voxcpm2_clone) được build tự động mỗi khi SPEECH_CORE_WITH_LITERT=ON — xem examples/litert. Bạn thích giao diện đồ họa hơn? Speech Studio cung cấp trình cài đặt Windows với cùng engine VoxCPM2.

Bước tiếp theo