Сбер запустил возможность тестирования новой нейросети Kandinsky 2.1, которая способна создавать изображения по текстовому описанию.
Kandinsky 2.1 — новая генеративная модель от Сбербанка способная создавать качественные изображения за несколько секунд по их текстовому описанию на естественном языке. Она также может комбинировать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданные, дорисовывать недостающие элементы и формировать изображения в режиме бесконечного полотна (inpainting/outpainting). Модель понимает запросы на 101 языке, включая русский и английский, и может рисовать в различных стилях.
Kandinsky 2.1 была разработана и обучена исследователями Sber AI с поддержкой ученых из AIRI. Она унаследовала веса предыдущей версии и была дополнительно обучена на 170 млн пар «текст-изображение» высокого разрешения, а затем дообучена на отдельно собранном датасете из 2 млн пар качественных изображений. В этот датасет вошли картинки с описаниями, которые являются сложными для нейросетей, например, тексты и лица людей.
Кроме того, Kandinsky 2.1 использует новую обученную модель автоэнкодера, которая улучшает генерацию изображений в высоком разрешении, таких как лица и сложные объекты. Новая модель содержит 3,3 млрд параметров, что на 1,3 млрд больше, чем у Kandinsky 2.0.
Kandinsky 2.1 также использует специальное представление изображения моделью CLIP, что позволяет ей формировать представление картинки на основе текстовой информации и подавать его на вход основной генеративной модели.
Модель может использоваться в различных отраслях, например, в банковской сфере для создания персонализированных маркетинговых решений, ярких образов продуктов и привлечения и удержания внимания клиентов.
Александр Ведяхин, первый заместитель Председателя Правления Сбербанка рассказал: «Обучая Kandinsky 2.1, мы учли мнения пользователей и реализовали смелую гипотезу, изучив самые передовые концепции. В результате мы разработали мощное универсальное решение для широкого круга задач на уровне лучших мировых аналогов. Оно открывает колоссальные возможности как для бизнеса, так и для населения. По сути, это ещё один важный шаг к AGI — сильному искусственному интеллекту. Думаю, у каждого найдётся задача для Kandinsky 2.1, и поэтому улучшенная модель, как и её предыдущая версия, находится в открытом доступе: протестировать её может любой желающий, причём бесплатно».
Для оценки возможностей новой нейросети доступны несколько вариантов. Ее промо-страница позволяет получить представление о модели, а на умных устройствах Sber и в мобильном приложении Салют можно запустить команду «Запусти художника». Дополнительно, модель доступна на платформе ML Space в хабе предобученных моделей и датасетов DataHub. Кроме того, ее можно использовать на платформе Fusion Brain и через Telegram-бот.
Фото: пресс-материалы.