ユースケース · 会話型

音声を入力。
音声を出力。

音声優先インターフェースの 3 つの形 —— 単一のフルデュプレックス speech-to-speech モデル、完全に制御できる wake → VAD → ASR → LLM → TTS のコンポーザブル・パイプライン、ハンズフリー起動用のウェイクワード。すべてオンデバイス、クラウド API なし、音声はデバイスから出ません。

デスクトップアプリ

Studio は声を作る。Runner はその声で会話する。

Speech Studio と Runner は同じローカル音声スタックの二つの顔です。一方は音声制作、もう一方はライブ音声エージェント操作に使います。

3 つのサブユースケース

プロダクトに合う形を選ぼう。

ドロップイン型の対話モデル、ステージごとに制御できるコンポーザブル・パイプライン、あるいは軽量なウェイクワード・トリガー。いずれも完全にオンデバイスで動作します。

さらに読む

コンポーネント別ガイド。