Erste Schritte — Windows

speech-core baut nativ auf Windows x86_64 — dieselbe C++17-Engine, die auch Android und Linux antreibt. Beide Inferenz-Backends funktionieren unter Windows: LiteRT (in der CI bei jeder Änderung getestet) und ONNX Runtime. Damit sind Streaming-Sprache-zu-Text (Nemotron, Parakeet), Sprachaktivitätserkennung, Sprecherdiarisierung, Sprechereinbettungen und VoxCPM2-Text-zu-Sprache mit Stimmklonen abgedeckt — alles läuft lokal. Die vollständige Modellmatrix findest du auf der Speech-Core-Seite.

Voraussetzungen

Build mit dem LiteRT-Backend

Führe den Build aus einer MSVC-Entwicklerumgebung aus (starte zum Beispiel Git Bash aus dem x64 Native Tools Command Prompt), damit dumpbin und lib im PATH liegen — das Setup-Skript nutzt sie, um aus der Runtime-DLL die Importbibliothek (libLiteRt.lib) zu erzeugen, die in Googles Wheel nicht enthalten ist:

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

Windows löst DLLs über den PATH auf — stelle daher das litert-Verzeichnis voran, bevor du etwas ausführst, das das Backend lädt:

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

Build mit dem ONNX-Runtime-Backend

Alternativ (oder zusätzlich) aktivierst du das ONNX-Backend, wobei ORT_DIR auf ein entpacktes onnxruntime-win-x64-Release zeigt. Optionale NVIDIA-CUDA-/TensorRT-Beschleunigung gibt es über -DSPEECH_CORE_WITH_CUDA=ON — zur Laufzeit gesteuert über SPEECH_CORE_ORT_PROVIDER mit stillem CPU-Fallback — und sie ist das Ziel für Vollduplex-Sprache-zu-Sprache mit PersonaPlex 7B:

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
Stimmklonen out of the box

Eine Stimmklon-CLI (speech_voxcpm2_clone) wird automatisch mitgebaut, sobald SPEECH_CORE_WITH_LITERT=ON gesetzt ist — siehe examples/litert. Lieber eine GUI? Speech Studio bietet einen Windows-Installer mit derselben VoxCPM2-Engine.

Nächste Schritte