Primeiros passos — Windows

Apple Android Linux Windows

O speech-core compila nativamente no Windows x86_64 — o mesmo motor C++17 que alimenta o Android e o Linux. Os dois backends de inferência funcionam no Windows: LiteRT (testado em CI a cada mudança) e ONNX Runtime. Isso cobre fala para texto em streaming (Nemotron, Parakeet), detecção de atividade de voz, diarização de falantes, embeddings de falante e texto para fala VoxCPM2 com clonagem de voz — tudo rodando localmente. Veja a matriz completa de modelos na página do Speech Core.

Requisitos

Windows 10/11, x86_64
Visual Studio 2022 ou as Build Tools (workload C++ do MSVC)
CMake 3.16+
Python 3.11+ (o script de configuração do LiteRT extrai o wheel ai-edge-litert do Google)
Git, incluindo o Git Bash (o script de configuração é um shell script)

Compilar com o backend LiteRT

Execute a partir de um ambiente de desenvolvedor do MSVC (por exemplo, abra o Git Bash a partir do x64 Native Tools Command Prompt) para que dumpbin e lib estejam no PATH — o script de configuração os usa para gerar a biblioteca de importação (libLiteRt.lib) a partir da DLL de runtime, que o wheel do Google não inclui:

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

O Windows resolve DLLs via PATH, então adicione o diretório litert ao início do PATH antes de executar qualquer coisa que carregue o backend:

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

Compilar com o backend ONNX Runtime

Como alternativa (ou adicionalmente), ative o backend ONNX com ORT_DIR apontando para um release onnxruntime-win-x64 extraído. A aceleração opcional NVIDIA CUDA / TensorRT está disponível via -DSPEECH_CORE_WITH_CUDA=ON — controlada em tempo de execução por SPEECH_CORE_ORT_PROVIDER, com fallback silencioso para CPU — e é o alvo para a fala para fala full-duplex do PersonaPlex 7B:

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release

Clonagem de voz pronta para uso

Uma CLI de clonagem de voz (speech_voxcpm2_clone) é compilada automaticamente sempre que SPEECH_CORE_WITH_LITERT=ON — veja examples/litert. Prefere uma interface gráfica? O Speech Studio oferece um instalador para Windows com o mesmo motor VoxCPM2.

Próximos passos

Speech Core — a matriz completa de modelos (colunas ONNX / LiteRT) e exemplos de API de início rápido
docs/pipeline.md — o loop de agente de voz do VoicePipeline
huggingface.co/soniqo — pesos de modelos convertidos
Discord — dúvidas e suporte