Caso de uso · Criação de conteúdo

Clone uma voz em 30 segundos.
Sintetize por horas.

Clonagem de voz zero-shot no Apple Silicon. Forneça um clipe de referência de 5–30 segundos e sua transcrição; CosyVoice 3 gera fala nessa voz em nove idiomas, totalmente offline. Sem fine-tuning, sem cobrança por caractere, sem áudio saindo do dispositivo.

O que você pode construir

Cinco receitas de clonagem de voz.

Cada receita gira em torno do CosyVoice 3 para a síntese, mas mistura diferentes componentes pré/pós — embeddings de locutor para correspondência, denoising para uma referência limpa, Qwen3-TTS ICL quando você só tem áudio.

Narração de audiolivros

Clone o autor ou uma voz escolhida uma vez, renderize horas de narração consistente.

Dublagem e localização

Mantenha a voz de um apresentador em pistas traduzidas, em nove idiomas.

Vozes de personagens

De duas a quatro vozes customizadas por cena via tags inline de locutor.

TTS de voz pessoal

Restaure uma voz familiar para usuários que não conseguem mais falar naturalmente.

Voz de marca

Um único narrador consistente em toda uma linha de produto.

Leitura adicional

Guias dos componentes.