语音合成的三种形态 —— 用一小段参考片段在几秒内克隆一个声音,以快于实时的速度渲染高质量中性 TTS,或产出一小时长的有声书与多说话人播客。全部端侧完成。
为个性化嗓音做零样本克隆、为应用 UI 做快速中性 TTS,或为旁白和对话做长篇合成。不同引擎,同一套端侧技术栈。
用 5–30 秒的参考片段克隆一个声音。零样本、无需微调,覆盖九种语言。
高质量中性语音,快于实时。紧凑包体,适合应用 UI、无障碍与应用内朗读。
使用一致旁白朗读有声书章节,或借助行内说话人标签生成最长 90 分钟的多说话人播客。