Cualquier voz.
Cualquier duración.
Tres formas de generación de voz — clona una voz en segundos a partir de un clip corto, renderiza TTS neutro de alta calidad más rápido que en tiempo real, o produce audiolibros de una hora y podcasts multi-locutor. Todo en el dispositivo.
Tres sabores de síntesis.
Clonación zero-shot para voces personalizadas, TTS neutro rápido para UI de app, o larga duración para narración y diálogo. Motores distintos, el mismo stack en el dispositivo.
Clona una voz a partir de un clip de referencia de 5–30 s. Zero-shot, sin fine-tuning, en nueve idiomas.
Voz neutra de alta calidad, más rápida que en tiempo real. Bundles compactos para UI de app, accesibilidad y narración in-app.
Capítulos de audiolibro con un narrador consistente, o podcasts multi-locutor de hasta 90 min con etiquetas inline de hablante.
