快速开始 — Windows

Apple Android Linux Windows

speech-core 可在 Windows x86_64 上原生构建 — 与驱动 Android 和 Linux 的是同一个 C++17 引擎。两个推理后端在 Windows 上均可用：LiteRT（每次变更都在 CI 中测试）和 ONNX Runtime。这覆盖了流式语音转文字（Nemotron、Parakeet）、语音活动检测、说话人分离、说话人嵌入向量，以及支持声音克隆的 VoxCPM2 文本转语音 — 全部本地运行。完整模型矩阵见 Speech Core 页面。

环境要求

Windows 10/11，x86_64
Visual Studio 2022 或 Build Tools（MSVC C++ 工作负载）
CMake 3.16+
Python 3.11+（LiteRT setup 脚本会解包 Google 的 ai-edge-litert wheel）
Git，包括 Git Bash（setup 脚本是 shell 脚本）

使用 LiteRT 后端构建

请在 MSVC 开发者环境中运行（例如，从 x64 Native Tools Command Prompt 启动 Git Bash），确保 dumpbin 和 lib 在 PATH 上 — setup 脚本要用它们从运行时 DLL 生成导入库（libLiteRt.lib），Google 的 wheel 并不附带该文件：

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

Windows 通过 PATH 解析 DLL，因此在运行任何会加载该后端的程序之前，先把 litert 目录加到 PATH 前面：

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

使用 ONNX Runtime 后端构建

或者（也可以同时）启用 ONNX 后端，将 ORT_DIR 指向解压后的 onnxruntime-win-x64 发行版。可通过 -DSPEECH_CORE_WITH_CUDA=ON 启用可选的 NVIDIA CUDA / TensorRT 加速 — 在运行时由 SPEECH_CORE_ORT_PROVIDER 控制并可静默回退到 CPU — 这也是 PersonaPlex 7B 全双工语音到语音的目标配置：

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release

开箱即用的声音克隆

只要 SPEECH_CORE_WITH_LITERT=ON，声音克隆 CLI（speech_voxcpm2_clone）就会自动构建 — 参见 examples/litert。更喜欢图形界面？Speech Studio 提供搭载同一 VoxCPM2 引擎的 Windows 安装包。

下一步

Speech Core — 完整模型矩阵（ONNX / LiteRT 列）和快速上手 API 示例
docs/pipeline.md — VoicePipeline 语音代理循环
huggingface.co/soniqo — 转换好的模型权重
Discord — 提问与支持