Empezar — Windows
speech-core compila de forma nativa en Windows x86_64 — el mismo motor C++17 que da soporte a Android y Linux. Ambos backends de inferencia funcionan en Windows: LiteRT (probado en CI con cada cambio) y ONNX Runtime. Eso cubre voz a texto en streaming (Nemotron, Parakeet), detección de actividad vocal, diarización de hablantes, embeddings de hablante y texto a voz VoxCPM2 con clonación de voz — todo ejecutándose localmente. Consulta la matriz completa de modelos en la página de Speech Core.
Requisitos
- Windows 10/11, x86_64
- Visual Studio 2022 o las Build Tools (carga de trabajo C++ de MSVC)
- CMake 3.16+
- Python 3.11+ (el script de configuración de LiteRT extrae el wheel
ai-edge-litertde Google) - Git, incluido Git Bash (el script de configuración es un script de shell)
Compilar con el backend LiteRT
Ejecuta desde un entorno de desarrollo MSVC (por ejemplo, lanza Git Bash desde el x64 Native Tools Command Prompt) para que dumpbin y lib estén en el PATH — el script de configuración los usa para generar la librería de importación (libLiteRt.lib) a partir de la DLL del runtime, que el wheel de Google no incluye:
git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_LITERT=ON \
-DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release
Windows resuelve las DLL a través del PATH, así que antepón el directorio litert antes de ejecutar cualquier cosa que cargue el backend:
export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release
Compilar con el backend ONNX Runtime
Como alternativa (o además), activa el backend ONNX con ORT_DIR apuntando a una release de onnxruntime-win-x64 extraída. La aceleración opcional NVIDIA CUDA / TensorRT está disponible mediante -DSPEECH_CORE_WITH_CUDA=ON — controlada en tiempo de ejecución por SPEECH_CORE_ORT_PROVIDER con fallback silencioso a CPU — y es el objetivo para la voz a voz full-duplex de PersonaPlex 7B:
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_ONNX=ON \
-DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
Una CLI de clonación de voz (speech_voxcpm2_clone) se compila automáticamente siempre que SPEECH_CORE_WITH_LITERT=ON — consulta examples/litert. ¿Prefieres una interfaz gráfica? Speech Studio ofrece un instalador para Windows con el mismo motor VoxCPM2.
Próximos pasos
- Speech Core — la matriz completa de modelos (columnas ONNX / LiteRT) y ejemplos de inicio rápido de la API
- docs/pipeline.md — el bucle de agente de voz
VoicePipeline - huggingface.co/soniqo — pesos de modelos convertidos
- Discord — preguntas y soporte