Кейс · Создание контента

Любой голос.
Любая длительность.

Три формы синтеза речи — клонируйте голос за секунды по короткому референсу, рендерьте качественный нейтральный TTS быстрее реального времени или продюсируйте часовые аудиокниги и многоголосые подкасты. Всё на устройстве.

Три подкейса

Три разновидности синтеза.

Zero-shot клонирование для персональных голосов, быстрый нейтральный TTS для UI приложений или длинный формат для озвучки и диалогов. Движки разные — стек на устройстве один.

Глубже

Гайды по компонентам.