ユースケース · 会話型

音声を入力。
音声を出力。

音声優先インターフェースの 3 つの形 —— 単一のフルデュプレックス speech-to-speech モデル、完全に制御できる wake → VAD → ASR → LLM → TTS のコンポーザブル・パイプライン、ハンズフリー起動用のウェイクワード。すべてオンデバイス、クラウド API なし、音声はデバイスから出ません。

はじめる speech-to-speech ガイド

デスクトップアプリ

Studio は声を作る。Runner はその声で会話する。

Speech Studio と Runner は同じローカル音声スタックの二つの顔です。一方は音声制作、もう一方はライブ音声エージェント操作に使います。

マイクから音声応答までのコンパニオンループ全体をローカルで実行します。現在のプレビューはコンパクトな Apple Silicon メモリ予算を狙っています。

Runner を試す

Mac 上で声をクローンし、サンプルを比較し、複数話者の音声をローカル生成します。

Speech Studio を開く

3 つのサブユースケース

プロダクトに合う形を選ぼう。

ドロップイン型の対話モデル、ステージごとに制御できるコンポーザブル・パイプライン、あるいは軽量なウェイクワード・トリガー。いずれも完全にオンデバイスで動作します。

フルデュプレックス speech-to-speech

一つのモデルがマイク入力を受け取り音声出力を生成。OpenAI-Realtime 互換の WebSocket でドロップイン、最小コード・内部はブラックボックス。

コンポーザブル音声パイプライン

ウェイクワード → VAD → ストリーミング ASR → オンデバイス LLM → TTS。各段で制御でき、書き起こしも可視化、エンジン差し替え自由。自分専用の Siri を構築。

ウェイクワード起動

あらゆる音声フローのハンズフリー・トリガー。フレーズごとの閾値を持つカスタムキーワード、オンデバイスで 5 MB 未満、26× 実時間。

さらに読む

コンポーネント別ガイド。

Streaming Dictation

Voice Activity Detection

Wake-Word / KWS