Erste Schritte — Windows
speech-core baut nativ auf Windows x86_64 — dieselbe C++17-Engine, die auch Android und Linux antreibt. Beide Inferenz-Backends funktionieren unter Windows: LiteRT (in der CI bei jeder Änderung getestet) und ONNX Runtime. Damit sind Streaming-Sprache-zu-Text (Nemotron, Parakeet), Sprachaktivitätserkennung, Sprecherdiarisierung, Sprechereinbettungen und VoxCPM2-Text-zu-Sprache mit Stimmklonen abgedeckt — alles läuft lokal. Die vollständige Modellmatrix findest du auf der Speech-Core-Seite.
Voraussetzungen
- Windows 10/11, x86_64
- Visual Studio 2022 oder die Build Tools (MSVC-C++-Workload)
- CMake 3.16+
- Python 3.11+ (das LiteRT-Setup-Skript entpackt Googles
ai-edge-litert-Wheel) - Git, einschließlich Git Bash (das Setup-Skript ist ein Shell-Skript)
Build mit dem LiteRT-Backend
Führe den Build aus einer MSVC-Entwicklerumgebung aus (starte zum Beispiel Git Bash aus dem x64 Native Tools Command Prompt), damit dumpbin und lib im PATH liegen — das Setup-Skript nutzt sie, um aus der Runtime-DLL die Importbibliothek (libLiteRt.lib) zu erzeugen, die in Googles Wheel nicht enthalten ist:
git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_LITERT=ON \
-DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release
Windows löst DLLs über den PATH auf — stelle daher das litert-Verzeichnis voran, bevor du etwas ausführst, das das Backend lädt:
export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release
Build mit dem ONNX-Runtime-Backend
Alternativ (oder zusätzlich) aktivierst du das ONNX-Backend, wobei ORT_DIR auf ein entpacktes onnxruntime-win-x64-Release zeigt. Optionale NVIDIA-CUDA-/TensorRT-Beschleunigung gibt es über -DSPEECH_CORE_WITH_CUDA=ON — zur Laufzeit gesteuert über SPEECH_CORE_ORT_PROVIDER mit stillem CPU-Fallback — und sie ist das Ziel für Vollduplex-Sprache-zu-Sprache mit PersonaPlex 7B:
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_ONNX=ON \
-DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
Eine Stimmklon-CLI (speech_voxcpm2_clone) wird automatisch mitgebaut, sobald SPEECH_CORE_WITH_LITERT=ON gesetzt ist — siehe examples/litert. Lieber eine GUI? Speech Studio bietet einen Windows-Installer mit derselben VoxCPM2-Engine.
Nächste Schritte
- Speech Core — die vollständige Modellmatrix (Spalten ONNX / LiteRT) und Schnellstart-API-Beispiele
- docs/pipeline.md — die
VoicePipeline-Sprachagentenschleife - huggingface.co/soniqo — konvertierte Modellgewichte
- Discord — Fragen und Support