用例 · 内容创作

30 秒克隆一个声音。
可连续合成数小时。

在 Apple Silicon 上进行零样本声音克隆。提供 5–30 秒的参考片段及其转录,CosyVoice 3 即可用该声音在九种语言上合成语音,全程离线。无需微调、无按字符计费,音频从不离开设备。

开始使用 CosyVoice 3 指南 HF · 8-bit 包

你能构建什么

五种声音克隆配方。

每种配方都围绕 CosyVoice 3 完成合成,但前/后处理不同 —— 用说话人嵌入做匹配、用去噪保持参考干净、当你只有音频时用 Qwen3-TTS ICL。

有声书朗读

一次克隆作者或所选声音,合成数小时一致的朗读。

配音与本地化

让主持人的声音在翻译音轨中保持一致,支持九种语言。

角色配音

每个场景通过行内说话人标签使用二到四个自定义声音。

个人语音 TTS

为无法自然发声的用户恢复熟悉的声音。

品牌声音

在整条产品线上使用同一位一致的朗读者。

深入阅读

组件指南。

Voice Cloning Suite

Speaker Embeddings

Speech Enhancement