快速开始 — Windows

speech-core 可在 Windows x86_64 上原生构建 — 与驱动 Android 和 Linux 的是同一个 C++17 引擎。两个推理后端在 Windows 上均可用:LiteRT(每次变更都在 CI 中测试)和 ONNX Runtime。这覆盖了流式语音转文字(Nemotron、Parakeet)、语音活动检测、说话人分离、说话人嵌入向量,以及支持声音克隆的 VoxCPM2 文本转语音 — 全部本地运行。完整模型矩阵见 Speech Core 页面

环境要求

使用 LiteRT 后端构建

请在 MSVC 开发者环境中运行(例如,从 x64 Native Tools Command Prompt 启动 Git Bash),确保 dumpbinlib 在 PATH 上 — setup 脚本要用它们从运行时 DLL 生成导入库(libLiteRt.lib),Google 的 wheel 并不附带该文件:

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

Windows 通过 PATH 解析 DLL,因此在运行任何会加载该后端的程序之前,先把 litert 目录加到 PATH 前面:

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

使用 ONNX Runtime 后端构建

或者(也可以同时)启用 ONNX 后端,将 ORT_DIR 指向解压后的 onnxruntime-win-x64 发行版。可通过 -DSPEECH_CORE_WITH_CUDA=ON 启用可选的 NVIDIA CUDA / TensorRT 加速 — 在运行时由 SPEECH_CORE_ORT_PROVIDER 控制并可静默回退到 CPU — 这也是 PersonaPlex 7B 全双工语音到语音的目标配置:

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
开箱即用的声音克隆

只要 SPEECH_CORE_WITH_LITERT=ON,声音克隆 CLI(speech_voxcpm2_clone)就会自动构建 — 参见 examples/litert。更喜欢图形界面?Speech Studio 提供搭载同一 VoxCPM2 引擎的 Windows 安装包。

下一步