ユースケース · 会話型
音声を入力。
音声を出力。
音声優先インターフェースの 3 つの形 —— 単一のフルデュプレックス speech-to-speech モデル、完全に制御できる wake → VAD → ASR → LLM → TTS のコンポーザブル・パイプライン、ハンズフリー起動用のウェイクワード。すべてオンデバイス、クラウド API なし、音声はデバイスから出ません。
デスクトップアプリ
Studio は声を作る。Runner はその声で会話する。
Speech Studio と Runner は同じローカル音声スタックの二つの顔です。一方は音声制作、もう一方はライブ音声エージェント操作に使います。
3 つのサブユースケース
プロダクトに合う形を選ぼう。
ドロップイン型の対話モデル、ステージごとに制御できるコンポーザブル・パイプライン、あるいは軽量なウェイクワード・トリガー。いずれも完全にオンデバイスで動作します。
さらに読む
