Premiers pas — Windows
speech-core se compile nativement sur Windows x86_64 — le même moteur C++17 qui alimente Android et Linux. Les deux backends d'inférence fonctionnent sous Windows : LiteRT (testé en CI à chaque changement) et ONNX Runtime. Cela couvre la reconnaissance vocale en streaming (Nemotron, Parakeet), la détection d'activité vocale, la diarisation de locuteurs, les empreintes de locuteur et la synthèse vocale VoxCPM2 avec clonage vocal — le tout exécuté en local. Consultez la matrice complète des modèles sur la page Speech Core.
Prérequis
- Windows 10/11, x86_64
- Visual Studio 2022 ou les Build Tools (charge de travail C++ MSVC)
- CMake 3.16+
- Python 3.11+ (le script de configuration LiteRT extrait le wheel
ai-edge-litertde Google) - Git, y compris Git Bash (le script de configuration est un script shell)
Compiler avec le backend LiteRT
Lancez la compilation depuis un environnement de développement MSVC (par exemple, ouvrez Git Bash depuis l'x64 Native Tools Command Prompt) afin que dumpbin et lib soient sur le PATH — le script de configuration les utilise pour générer la bibliothèque d'import (libLiteRt.lib) à partir de la DLL d'exécution, que le wheel de Google ne fournit pas :
git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_LITERT=ON \
-DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release
Windows résout les DLL via le PATH ; ajoutez donc le répertoire litert en tête du PATH avant d'exécuter quoi que ce soit qui charge le backend :
export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release
Compiler avec le backend ONNX Runtime
Alternativement (ou en complément), activez le backend ONNX avec ORT_DIR pointant vers une release onnxruntime-win-x64 extraite. L'accélération NVIDIA CUDA / TensorRT optionnelle est disponible via -DSPEECH_CORE_WITH_CUDA=ON — contrôlée à l'exécution par SPEECH_CORE_ORT_PROVIDER avec repli silencieux sur CPU — et c'est la cible visée pour la parole-à-parole full-duplex PersonaPlex 7B :
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_ONNX=ON \
-DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
Une CLI de clonage vocal (speech_voxcpm2_clone) est compilée automatiquement dès que SPEECH_CORE_WITH_LITERT=ON — voir examples/litert. Vous préférez une interface graphique ? Speech Studio propose un installateur Windows avec le même moteur VoxCPM2.
Prochaines étapes
- Speech Core — la matrice complète des modèles (colonnes ONNX / LiteRT) et des exemples d'API de démarrage rapide
- docs/pipeline.md — la boucle d'agent vocal
VoicePipeline - huggingface.co/soniqo — poids de modèles convertis
- Discord — questions et support