Начало работы — Windows
speech-core собирается нативно на Windows x86_64 — тот же движок на C++17, что питает Android и Linux. На Windows работают оба бэкенда инференса: LiteRT (тестируется в CI на каждом изменении) и ONNX Runtime. Это покрывает потоковое распознавание речи (Nemotron, Parakeet), детекцию голосовой активности, диаризацию спикеров, эмбеддинги спикеров и синтез речи VoxCPM2 с клонированием голоса — и всё это работает локально. Полная матрица моделей — на странице Speech Core.
Требования
- Windows 10/11, x86_64
- Visual Studio 2022 или Build Tools (рабочая нагрузка MSVC C++)
- CMake 3.16+
- Python 3.11+ (скрипт настройки LiteRT извлекает wheel-пакет
ai-edge-litertот Google) - Git, включая Git Bash (скрипт настройки — это shell-скрипт)
Сборка с бэкендом LiteRT
Запускайте из окружения разработчика MSVC (например, откройте Git Bash из x64 Native Tools Command Prompt), чтобы dumpbin и lib были в PATH — скрипт настройки использует их, чтобы сгенерировать import-библиотеку (libLiteRt.lib) из DLL рантайма, поскольку wheel-пакет Google её не поставляет:
git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_LITERT=ON \
-DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release
Windows ищет DLL через PATH, поэтому добавьте каталог litert в начало PATH, прежде чем запускать что-либо, что загружает бэкенд:
export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release
Сборка с бэкендом ONNX Runtime
Альтернативно (или дополнительно) включите ONNX-бэкенд, указав в ORT_DIR путь к распакованному релизу onnxruntime-win-x64. Опциональное ускорение NVIDIA CUDA / TensorRT доступно через -DSPEECH_CORE_WITH_CUDA=ON — в рантайме оно управляется переменной SPEECH_CORE_ORT_PROVIDER с тихим откатом на CPU — и именно это целевая конфигурация для полнодуплексной речи в речь PersonaPlex 7B:
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_ONNX=ON \
-DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
CLI для клонирования голоса (speech_voxcpm2_clone) собирается автоматически, когда SPEECH_CORE_WITH_LITERT=ON — см. examples/litert. Предпочитаете GUI? Speech Studio поставляется с установщиком для Windows и тем же движком VoxCPM2.
Следующие шаги
- Speech Core — полная матрица моделей (колонки ONNX / LiteRT) и примеры API для быстрого старта
- docs/pipeline.md — цикл голосового агента
VoicePipeline - huggingface.co/soniqo — сконвертированные веса моделей
- Discord — вопросы и поддержка