Начало работы — Windows

Apple Android Linux Windows

speech-core собирается нативно на Windows x86_64 — тот же движок на C++17, что питает Android и Linux. На Windows работают оба бэкенда инференса: LiteRT (тестируется в CI на каждом изменении) и ONNX Runtime. Это покрывает потоковое распознавание речи (Nemotron, Parakeet), детекцию голосовой активности, диаризацию спикеров, эмбеддинги спикеров и синтез речи VoxCPM2 с клонированием голоса — и всё это работает локально. Полная матрица моделей — на странице Speech Core.

Требования

Windows 10/11, x86_64
Visual Studio 2022 или Build Tools (рабочая нагрузка MSVC C++)
CMake 3.16+
Python 3.11+ (скрипт настройки LiteRT извлекает wheel-пакет ai-edge-litert от Google)
Git, включая Git Bash (скрипт настройки — это shell-скрипт)

Сборка с бэкендом LiteRT

Запускайте из окружения разработчика MSVC (например, откройте Git Bash из x64 Native Tools Command Prompt), чтобы dumpbin и lib были в PATH — скрипт настройки использует их, чтобы сгенерировать import-библиотеку (libLiteRt.lib) из DLL рантайма, поскольку wheel-пакет Google её не поставляет:

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

Windows ищет DLL через PATH, поэтому добавьте каталог litert в начало PATH, прежде чем запускать что-либо, что загружает бэкенд:

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

Сборка с бэкендом ONNX Runtime

Альтернативно (или дополнительно) включите ONNX-бэкенд, указав в ORT_DIR путь к распакованному релизу onnxruntime-win-x64. Опциональное ускорение NVIDIA CUDA / TensorRT доступно через -DSPEECH_CORE_WITH_CUDA=ON — в рантайме оно управляется переменной SPEECH_CORE_ORT_PROVIDER с тихим откатом на CPU — и именно это целевая конфигурация для полнодуплексной речи в речь PersonaPlex 7B:

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release

Клонирование голоса из коробки

CLI для клонирования голоса (speech_voxcpm2_clone) собирается автоматически, когда SPEECH_CORE_WITH_LITERT=ON — см. examples/litert. Предпочитаете GUI? Speech Studio поставляется с установщиком для Windows и тем же движком VoxCPM2.

Следующие шаги

Speech Core — полная матрица моделей (колонки ONNX / LiteRT) и примеры API для быстрого старта
docs/pipeline.md — цикл голосового агента VoicePipeline
huggingface.co/soniqo — сконвертированные веса моделей
Discord — вопросы и поддержка