用例 · 对话式

声音进。
声音出。

三种以语音为先的界面形态 —— 一个全双工 speech-to-speech 模型,一条由你完全掌控的 wake → VAD → ASR → LLM → TTS 可组合流水线,以及用于免手操作启动的唤醒词激活。全部端侧运行,无云端 API,音频不离开设备。

桌面应用

Studio 创建声音。Runner 用声音对话。

Speech Studio 和 Runner 是同一本地语音栈的两个界面：一个用于语音制作，一个用于实时语音代理交互。

在本地运行完整的麦克风到语音伙伴循环，当前预览版面向紧凑的 Apple Silicon 内存预算。

在 Mac 上本地克隆声音、比较样本并生成多说话人语音。

三个子用例

即插即用的对话模型、可逐级控制的可组合流水线,或一个轻量的唤醒词触发器。每一种都完全在设备端运行。

单一模型直接读取麦克风输入并产出语音输出。即插即用的 OpenAI-Realtime 兼容 WebSocket;代码最少,内部不透明。

唤醒词 → VAD → 流式 ASR → 端侧 LLM → TTS。逐级控制、转录可见、自由替换引擎。打造你自己的 Siri。

为任何语音流程提供免手操作的触发。支持自定义关键词与按短语阈值,端侧体积小于 5 MB,达到 26× 实时。

深入阅读