Empezar — Windows

Apple Android Linux Windows

speech-core compila de forma nativa en Windows x86_64 — el mismo motor C++17 que da soporte a Android y Linux. Ambos backends de inferencia funcionan en Windows: LiteRT (probado en CI con cada cambio) y ONNX Runtime. Eso cubre voz a texto en streaming (Nemotron, Parakeet), detección de actividad vocal, diarización de hablantes, embeddings de hablante y texto a voz VoxCPM2 con clonación de voz — todo ejecutándose localmente. Consulta la matriz completa de modelos en la página de Speech Core.

Requisitos

Windows 10/11, x86_64
Visual Studio 2022 o las Build Tools (carga de trabajo C++ de MSVC)
CMake 3.16+
Python 3.11+ (el script de configuración de LiteRT extrae el wheel ai-edge-litert de Google)
Git, incluido Git Bash (el script de configuración es un script de shell)

Compilar con el backend LiteRT

Ejecuta desde un entorno de desarrollo MSVC (por ejemplo, lanza Git Bash desde el x64 Native Tools Command Prompt) para que dumpbin y lib estén en el PATH — el script de configuración los usa para generar la librería de importación (libLiteRt.lib) a partir de la DLL del runtime, que el wheel de Google no incluye:

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

Windows resuelve las DLL a través del PATH, así que antepón el directorio litert antes de ejecutar cualquier cosa que cargue el backend:

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

Compilar con el backend ONNX Runtime

Como alternativa (o además), activa el backend ONNX con ORT_DIR apuntando a una release de onnxruntime-win-x64 extraída. La aceleración opcional NVIDIA CUDA / TensorRT está disponible mediante -DSPEECH_CORE_WITH_CUDA=ON — controlada en tiempo de ejecución por SPEECH_CORE_ORT_PROVIDER con fallback silencioso a CPU — y es el objetivo para la voz a voz full-duplex de PersonaPlex 7B:

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release

Clonación de voz lista para usar

Una CLI de clonación de voz (speech_voxcpm2_clone) se compila automáticamente siempre que SPEECH_CORE_WITH_LITERT=ON — consulta examples/litert. ¿Prefieres una interfaz gráfica? Speech Studio ofrece un instalador para Windows con el mismo motor VoxCPM2.

Próximos pasos

Speech Core — la matriz completa de modelos (columnas ONNX / LiteRT) y ejemplos de inicio rápido de la API
docs/pipeline.md — el bucle de agente de voz VoicePipeline
huggingface.co/soniqo — pesos de modelos convertidos
Discord — preguntas y soporte