Primeiros passos — Windows
O speech-core compila nativamente no Windows x86_64 — o mesmo motor C++17 que alimenta o Android e o Linux. Os dois backends de inferência funcionam no Windows: LiteRT (testado em CI a cada mudança) e ONNX Runtime. Isso cobre fala para texto em streaming (Nemotron, Parakeet), detecção de atividade de voz, diarização de falantes, embeddings de falante e texto para fala VoxCPM2 com clonagem de voz — tudo rodando localmente. Veja a matriz completa de modelos na página do Speech Core.
Requisitos
- Windows 10/11, x86_64
- Visual Studio 2022 ou as Build Tools (workload C++ do MSVC)
- CMake 3.16+
- Python 3.11+ (o script de configuração do LiteRT extrai o wheel
ai-edge-litertdo Google) - Git, incluindo o Git Bash (o script de configuração é um shell script)
Compilar com o backend LiteRT
Execute a partir de um ambiente de desenvolvedor do MSVC (por exemplo, abra o Git Bash a partir do x64 Native Tools Command Prompt) para que dumpbin e lib estejam no PATH — o script de configuração os usa para gerar a biblioteca de importação (libLiteRt.lib) a partir da DLL de runtime, que o wheel do Google não inclui:
git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_LITERT=ON \
-DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release
O Windows resolve DLLs via PATH, então adicione o diretório litert ao início do PATH antes de executar qualquer coisa que carregue o backend:
export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release
Compilar com o backend ONNX Runtime
Como alternativa (ou adicionalmente), ative o backend ONNX com ORT_DIR apontando para um release onnxruntime-win-x64 extraído. A aceleração opcional NVIDIA CUDA / TensorRT está disponível via -DSPEECH_CORE_WITH_CUDA=ON — controlada em tempo de execução por SPEECH_CORE_ORT_PROVIDER, com fallback silencioso para CPU — e é o alvo para a fala para fala full-duplex do PersonaPlex 7B:
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_ONNX=ON \
-DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
Uma CLI de clonagem de voz (speech_voxcpm2_clone) é compilada automaticamente sempre que SPEECH_CORE_WITH_LITERT=ON — veja examples/litert. Prefere uma interface gráfica? O Speech Studio oferece um instalador para Windows com o mesmo motor VoxCPM2.
Próximos passos
- Speech Core — a matriz completa de modelos (colunas ONNX / LiteRT) e exemplos de API de início rápido
- docs/pipeline.md — o loop de agente de voz do
VoicePipeline - huggingface.co/soniqo — pesos de modelos convertidos
- Discord — dúvidas e suporte