시작하기 — Windows

Apple Android Linux Windows

speech-core는 Windows x86_64에서 네이티브로 빌드됩니다 — Android와 Linux를 구동하는 것과 동일한 C++17 엔진입니다. 두 추론 백엔드 모두 Windows에서 동작합니다: LiteRT(모든 변경마다 CI에서 테스트)와 ONNX Runtime. 스트리밍 음성-텍스트 변환(Nemotron, Parakeet), 음성 활동 감지, 화자 분리, 화자 임베딩, 그리고 음성 복제를 지원하는 VoxCPM2 텍스트-음성 변환까지 — 모두 로컬에서 실행됩니다. 전체 모델 매트릭스는 Speech Core 페이지에서 확인하세요.

요구사항

Windows 10/11, x86_64
Visual Studio 2022 또는 Build Tools (MSVC C++ 워크로드)
CMake 3.16+
Python 3.11+ (LiteRT 설정 스크립트가 Google의 ai-edge-litert 휠을 추출합니다)
Git Bash를 포함한 Git (설정 스크립트는 셸 스크립트입니다)

LiteRT 백엔드로 빌드

MSVC 개발자 환경에서 실행하세요(예: x64 Native Tools Command Prompt에서 Git Bash를 실행). dumpbin과 lib이 PATH에 있어야 합니다 — 설정 스크립트가 이 도구들로 런타임 DLL에서 임포트 라이브러리(libLiteRt.lib)를 생성하는데, 이 파일은 Google의 휠에 포함되어 있지 않습니다:

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

Windows는 PATH를 통해 DLL을 찾으므로, 백엔드를 로드하는 것을 실행하기 전에 litert 디렉터리를 PATH 앞에 추가하세요:

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

ONNX Runtime 백엔드로 빌드

대안으로(또는 추가로) ORT_DIR이 압축 해제된 onnxruntime-win-x64 릴리스를 가리키도록 하여 ONNX 백엔드를 활성화할 수 있습니다. 선택적인 NVIDIA CUDA / TensorRT 가속은 -DSPEECH_CORE_WITH_CUDA=ON으로 사용할 수 있으며 — SPEECH_CORE_ORT_PROVIDER로 런타임에 제어되고 조용히 CPU로 폴백합니다 — PersonaPlex 7B 풀듀플렉스 음성-음성 변환의 타겟이기도 합니다:

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release

바로 사용 가능한 음성 복제

SPEECH_CORE_WITH_LITERT=ON이면 음성 복제 CLI(speech_voxcpm2_clone)가 자동으로 빌드됩니다 — examples/litert를 참고하세요. GUI를 선호하시나요? Speech Studio는 동일한 VoxCPM2 엔진을 탑재한 Windows 설치 프로그램을 제공합니다.

다음 단계

Speech Core — 전체 모델 매트릭스(ONNX / LiteRT 열)와 퀵스타트 API 예제
docs/pipeline.md — VoicePipeline 음성 에이전트 루프
huggingface.co/soniqo — 변환된 모델 가중치
Discord — 질문 및 지원