Bắt đầu — Windows

Apple Android Linux Windows

speech-core biên dịch nguyên bản trên Windows x86_64 — chính engine C++17 đang vận hành Android và Linux. Cả hai backend suy luận đều hoạt động trên Windows: LiteRT (được kiểm thử trong CI với mỗi thay đổi) và ONNX Runtime. Điều đó bao gồm chuyển giọng nói thành văn bản streaming (Nemotron, Parakeet), phát hiện hoạt động giọng nói, phân tách người nói, embedding người nói và chuyển văn bản thành giọng nói VoxCPM2 kèm nhân bản giọng nói — tất cả chạy cục bộ. Xem ma trận mô hình đầy đủ trên trang Speech Core.

Yêu cầu

Windows 10/11, x86_64
Visual Studio 2022 hoặc Build Tools (workload MSVC C++)
CMake 3.16+
Python 3.11+ (script thiết lập LiteRT trích xuất wheel ai-edge-litert của Google)
Git, bao gồm Git Bash (script thiết lập là một shell script)

Biên dịch với backend LiteRT

Chạy từ môi trường phát triển MSVC (ví dụ, mở Git Bash từ x64 Native Tools Command Prompt) để dumpbin và lib có sẵn trên PATH — script thiết lập dùng chúng để tạo import library (libLiteRt.lib) từ DLL runtime, thứ mà wheel của Google không kèm theo:

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

Windows phân giải DLL thông qua PATH, vì vậy hãy thêm thư mục litert vào đầu PATH trước khi chạy bất cứ thứ gì nạp backend này:

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

Biên dịch với backend ONNX Runtime

Thay vào đó (hoặc song song), hãy bật backend ONNX với ORT_DIR trỏ đến một bản phát hành onnxruntime-win-x64 đã giải nén. Tăng tốc NVIDIA CUDA / TensorRT tùy chọn có sẵn qua -DSPEECH_CORE_WITH_CUDA=ON — được kiểm soát lúc chạy bởi SPEECH_CORE_ORT_PROVIDER với cơ chế âm thầm chuyển về CPU — và là đích nhắm cho PersonaPlex 7B giọng nói tới giọng nói song công:

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release

Nhân bản giọng nói có sẵn ngay

CLI nhân bản giọng nói (speech_voxcpm2_clone) được build tự động mỗi khi SPEECH_CORE_WITH_LITERT=ON — xem examples/litert. Bạn thích giao diện đồ họa hơn? Speech Studio cung cấp trình cài đặt Windows với cùng engine VoxCPM2.

Bước tiếp theo

Speech Core — ma trận mô hình đầy đủ (cột ONNX / LiteRT) và các ví dụ API khởi đầu nhanh
docs/pipeline.md — vòng lặp tác nhân giọng nói VoicePipeline
huggingface.co/soniqo — trọng số mô hình đã chuyển đổi
Discord — câu hỏi và hỗ trợ