Premiers pas — Windows

Apple Android Linux Windows

speech-core se compile nativement sur Windows x86_64 — le même moteur C++17 qui alimente Android et Linux. Les deux backends d'inférence fonctionnent sous Windows : LiteRT (testé en CI à chaque changement) et ONNX Runtime. Cela couvre la reconnaissance vocale en streaming (Nemotron, Parakeet), la détection d'activité vocale, la diarisation de locuteurs, les empreintes de locuteur et la synthèse vocale VoxCPM2 avec clonage vocal — le tout exécuté en local. Consultez la matrice complète des modèles sur la page Speech Core.

Prérequis

Windows 10/11, x86_64
Visual Studio 2022 ou les Build Tools (charge de travail C++ MSVC)
CMake 3.16+
Python 3.11+ (le script de configuration LiteRT extrait le wheel ai-edge-litert de Google)
Git, y compris Git Bash (le script de configuration est un script shell)

Compiler avec le backend LiteRT

Lancez la compilation depuis un environnement de développement MSVC (par exemple, ouvrez Git Bash depuis l'x64 Native Tools Command Prompt) afin que dumpbin et lib soient sur le PATH — le script de configuration les utilise pour générer la bibliothèque d'import (libLiteRt.lib) à partir de la DLL d'exécution, que le wheel de Google ne fournit pas :

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

Windows résout les DLL via le PATH ; ajoutez donc le répertoire litert en tête du PATH avant d'exécuter quoi que ce soit qui charge le backend :

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

Compiler avec le backend ONNX Runtime

Alternativement (ou en complément), activez le backend ONNX avec ORT_DIR pointant vers une release onnxruntime-win-x64 extraite. L'accélération NVIDIA CUDA / TensorRT optionnelle est disponible via -DSPEECH_CORE_WITH_CUDA=ON — contrôlée à l'exécution par SPEECH_CORE_ORT_PROVIDER avec repli silencieux sur CPU — et c'est la cible visée pour la parole-à-parole full-duplex PersonaPlex 7B :

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release

Clonage vocal prêt à l'emploi

Une CLI de clonage vocal (speech_voxcpm2_clone) est compilée automatiquement dès que SPEECH_CORE_WITH_LITERT=ON — voir examples/litert. Vous préférez une interface graphique ? Speech Studio propose un installateur Windows avec le même moteur VoxCPM2.

Prochaines étapes

Speech Core — la matrice complète des modèles (colonnes ONNX / LiteRT) et des exemples d'API de démarrage rapide
docs/pipeline.md — la boucle d'agent vocal VoicePipeline
huggingface.co/soniqo — poids de modèles convertis
Discord — questions et support