はじめに — Windows
speech-coreはWindows x86_64上でネイティブにビルドできます — AndroidとLinuxを支えているのと同じC++17エンジンです。LiteRT(変更ごとにCIでテスト済み)とONNX Runtimeの2つの推論バックエンドが、どちらもWindowsで動作します。これにより、ストリーミング音声認識(Nemotron、Parakeet)、音声区間検出、話者ダイアライゼーション、話者embedding、そして音声クローン対応のVoxCPM2音声合成 — すべてがローカルで動作します。対応モデルの全マトリックスはSpeech Coreページをご覧ください。
動作要件
- Windows 10/11、x86_64
- Visual Studio 2022 または Build Tools(MSVC C++ワークロード)
- CMake 3.16+
- Python 3.11+(LiteRTセットアップスクリプトがGoogleの
ai-edge-litertwheelを展開します) - Git(Git Bashを含む — セットアップスクリプトはシェルスクリプトです)
LiteRTバックエンドでビルド
dumpbinとlibがPATHに含まれるよう、MSVC開発者環境から実行してください(たとえばx64 Native Tools Command PromptからGit Bashを起動)— セットアップスクリプトはこれらを使い、Googleのwheelには同梱されていないインポートライブラリ(libLiteRt.lib)をランタイムDLLから生成します:
git clone https://github.com/soniqo/speech-core.git
cd speech-core
./scripts/fetch_litert.sh "$PWD/litert"
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_LITERT=ON \
-DLITERT_DIR=$PWD/litert
cmake --build build --parallel --config Release
WindowsはDLLをPATH経由で解決するため、バックエンドをロードするものを実行する前にlitertディレクトリをPATHの先頭に追加してください:
export PATH="$PWD/litert:$PATH"
ctest --test-dir build --output-on-failure -C Release
ONNX Runtimeバックエンドでビルド
代わりに(または追加で)、展開済みのonnxruntime-win-x64リリースをORT_DIRで指定して、ONNXバックエンドを有効化することもできます。オプションのNVIDIA CUDA / TensorRTアクセラレーションは-DSPEECH_CORE_WITH_CUDA=ONで利用できます — SPEECH_CORE_ORT_PROVIDERによるランタイム制御と、サイレントなCPUフォールバック付き — これはPersonaPlex 7Bのフルデュプレックス音声間変換のターゲットでもあります:
cmake -B build \
-DCMAKE_BUILD_TYPE=Release \
-DSPEECH_CORE_WITH_ONNX=ON \
-DORT_DIR=C:/path/to/onnxruntime-win-x64
cmake --build build --parallel --config Release
SPEECH_CORE_WITH_LITERT=ONのとき、音声クローンCLI(speech_voxcpm2_clone)が自動的にビルドされます — examples/litertをご覧ください。GUIをお好みですか? Speech Studioは同じVoxCPM2エンジンを搭載したWindowsインストーラーを提供しています。
次のステップ
- Speech Core — 対応モデルの全マトリックス(ONNX / LiteRT列)とクイックスタートAPI例
- docs/pipeline.md —
VoicePipelineによる音声エージェントループ - huggingface.co/soniqo — 変換済みモデルウェイト
- Discord — 質問とサポート