用例 · 有声书 · 播客

数小时的音频。
始终如一的声音。

有声书章节、播客整集、培训朗读 —— 在 Apple Silicon、Android、Windows 或嵌入式 Linux 上端侧渲染。自动分段让声音长时间保持稳定;多说话人模式处理命名角色之间的对话。

你能构建什么

五种长篇形态。

每个引擎都有自己的强项。有声书依赖 CosyVoice 3 保证朗读者的保真度。多说话人播客依赖 VibeVoice 的整集上下文。实时/流式则使用更小的 VibeVoice Realtime。

有声书章节

以一致的朗读者声音整章渲染。自动按句分段,无需手动拼接。

多说话人播客

通过行内说话人标签驱动话轮切换。在整集脚本节目中分配二到四个声音。

直播播客 / 流式

边听边生成。VibeVoice Realtime 把延迟降到足以支持实时对话。

文章 TTS

通讯长度的文章、博客文章、内部文档 —— 以自然朗读的节奏渲染,而不是屏幕阅读器式的语调。

无障碍朗读

为有阅读或视觉障碍的用户提供长篇内容访问,完全离线。

深入阅读