Caso de uso · Creación de contenido

Cualquier voz.
Cualquier duración.

Tres formas de generación de voz — clona una voz en segundos a partir de un clip corto, renderiza TTS neutro de alta calidad más rápido que en tiempo real, o produce audiolibros de una hora y podcasts multi-locutor. Todo en el dispositivo.

Empezar Guía de clonación de voz

Tres subcasos de uso

Tres sabores de síntesis.

Clonación zero-shot para voces personalizadas, TTS neutro rápido para UI de app, o larga duración para narración y diálogo. Motores distintos, el mismo stack en el dispositivo.

Clonación de voz

Clona una voz a partir de un clip de referencia de 5–30 s. Zero-shot, sin fine-tuning, en nueve idiomas.

TTS estándar

Voz neutra de alta calidad, más rápida que en tiempo real. Bundles compactos para UI de app, accesibilidad y narración in-app.

Larga duración y multi-locutor

Capítulos de audiolibro con un narrador consistente, o podcasts multi-locutor de hasta 90 min con etiquetas inline de hablante.

Lectura adicional