用例 · 内容创作

任意声音。
任意长度。

语音合成的三种形态 —— 用一小段参考片段在几秒内克隆一个声音,以快于实时的速度渲染高质量中性 TTS,或产出一小时长的有声书与多说话人播客。全部端侧完成。

开始使用声音克隆指南

三个子用例

三种合成风味。

为个性化嗓音做零样本克隆、为应用 UI 做快速中性 TTS,或为旁白和对话做长篇合成。不同引擎,同一套端侧技术栈。

用 5–30 秒的参考片段克隆一个声音。零样本、无需微调,覆盖九种语言。

高质量中性语音,快于实时。紧凑包体,适合应用 UI、无障碍与应用内朗读。

长篇与多说话人

使用一致旁白朗读有声书章节,或借助行内说话人标签生成最长 90 分钟的多说话人播客。

深入阅读

组件指南。

Voice Cloning Suite

Speaker Embeddings