はじめに — Windows

speech-coreWindows x86_64上でネイティブにビルドできます — AndroidとLinuxを支えているのと同じC++17エンジンです。LiteRT(変更ごとにCIでテスト済み)とONNX Runtimeの2つの推論バックエンドが、どちらもWindowsで動作します。これにより、ストリーミング音声認識(Nemotron、Parakeet)、音声区間検出、話者ダイアライゼーション、話者embedding、そして音声クローン対応のVoxCPM2音声合成 — すべてがローカルで動作します。対応モデルの全マトリックスはSpeech Coreページをご覧ください。

動作要件

LiteRTバックエンドでビルド

dumpbinlibがPATHに含まれるよう、MSVC開発者環境から実行してください(たとえばx64 Native Tools Command PromptからGit Bashを起動)— セットアップスクリプトはこれらを使い、Googleのwheelには同梱されていないインポートライブラリ(libLiteRt.lib)をランタイムDLLから生成します:

git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON \
    -DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release

WindowsはDLLをPATH経由で解決するため、バックエンドをロードするものを実行する前にlitertディレクトリをPATHの先頭に追加してください:

export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release

ONNX Runtimeバックエンドでビルド

代わりに(または追加で)、展開済みのonnxruntime-win-x64リリースORT_DIRで指定して、ONNXバックエンドを有効化することもできます。オプションのNVIDIA CUDA / TensorRTアクセラレーションは-DSPEECH_CORE_WITH_CUDA=ONで利用できます — SPEECH_CORE_ORT_PROVIDERによるランタイム制御と、サイレントなCPUフォールバック付き — これはPersonaPlex 7Bのフルデュプレックス音声間変換のターゲットでもあります:

cmake -B build \
    -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_ONNX=ON \
    -DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
すぐに使える音声クローン

SPEECH_CORE_WITH_LITERT=ONのとき、音声クローンCLI(speech_voxcpm2_clone)が自動的にビルドされます — examples/litertをご覧ください。GUIをお好みですか? Speech Studioは同じVoxCPM2エンジンを搭載したWindowsインストーラーを提供しています。

次のステップ