Clone uma voz em 30 segundos.
Sintetize por horas.
Clonagem de voz zero-shot no Apple Silicon. Forneça um clipe de referência de 5–30 segundos e sua transcrição; CosyVoice 3 gera fala nessa voz em nove idiomas, totalmente offline. Sem fine-tuning, sem cobrança por caractere, sem áudio saindo do dispositivo.
Cinco receitas de clonagem de voz.
Cada receita gira em torno do CosyVoice 3 para a síntese, mas mistura diferentes componentes pré/pós — embeddings de locutor para correspondência, denoising para uma referência limpa, Qwen3-TTS ICL quando você só tem áudio.
Clone o autor ou uma voz escolhida uma vez, renderize horas de narração consistente.
Mantenha a voz de um apresentador em pistas traduzidas, em nove idiomas.
De duas a quatro vozes customizadas por cena via tags inline de locutor.
Restaure uma voz familiar para usuários que não conseguem mais falar naturalmente.
Um único narrador consistente em toda uma linha de produto.
