Kandinsky Video

Сбер разработал новую нейросеть Kandinsky Video — первую в России модель, которая может создавать цельные видеоролики по текстовому описанию. Она способна формировать видео длительностью до восьми секунд с частотой 30 кадров в секунду.

В рамках международной конференции AI Journey эту разработку представил Александр Ведяхин, первый заместитель Председателя Правления Сбербанка.

Архитектура Kandinsky Video включает два ключевых блока: первый формирует основные кадры, определяющие структуру видеосюжета, а второй генерирует интерполяционные кадры для плавности движений в окончательном видео. Эти блоки базируются на новой модели синтеза изображений по текстовым описаниям Kandinsky 3.0.

Созданные этой нейросетью видеоролики представляют собой непрерывные сцены с движением объектов и фона. Они отличаются от анимационных видеороликов, где динамика обычно достигается перемещением камеры относительно статичной сцены. Разрешение видео, создаваемого моделью Kandinsky Video, составляет 512 х 512 пикселей с различными пропорциями сторон. Нейросеть обучалась на более чем 300 тыс. парах «текст — видео», и время генерации видео может достигать до трёх минут.

Александр Ведяхин, первый заместитель Председателя Правления Сбербанка: «Недавно мы обучили Kandinsky создавать анимационные видео по текстовому описанию, а уже сегодня представляем модель совершенно другого уровня — первую в России модель по генерации полноценных видеороликов по тексту. Это важный вклад в развитие российских генеративных нейросетей. У пользователей появится ещё больше возможностей для креатива и реализации своих творческих задумок любой направленности. Люди смогут создавать уникальные видеоролики абсолютно бесплатно. Наша модель, как и большинство других в линейке Сбера, будет доступна в open source. Мы верим, что искусственный интеллект сможет открыть перед людьми новые супервозможности и создать инструменты, которыми они будут пользоваться для решения своих задач».

Фото: скриншот главной страницы сайта.