Сбер открывает код: два новых ИИ-актива для глобального сообщества

Сбер открывает код: два новых ИИ-актива для глобального сообщества

В рамках отраслевого форума «День ИИ» в Сколково Сбер сделал значительный жест в сторону open-source сообщества, представив две ключевые разработки своих исследователей. Технологический гигант опубликовал в открытом доступе усовершенствованную модель для создания векторных представлений текста Giga-Embeddings и компактную генеративную модель для видео Kandinsky Video Lite. Обе новинки распространяются по либеральной лицензии, снимающей барьеры для их интеграции в коммерческие продукты.

Как отметил Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка, эта инициатива продолжает стратегию банка по открытой публикации своих наработок в области генеративного ИИ, куда уже входят все модели семейства Kandinsky и русскоязычные акустические модели GigaAM.

«Предоставление профессиональному сообществу таких инструментов, как Kandinsky Video Lite и Giga-Embeddings, служит катализатором для научных изысканий и создания прорывных сервисов. Это не только подтверждает нашу приверженность развитию глобального open-source движения, но и задает новые стандарты в области NLP, укрепляя позиции страны в качестве одного из технологических лидеров», — подчеркнул Белевцев.

Kandinsky Video Lite: мощь в компактном формате

Новая видео-модель позволяет генерировать короткие ролики продолжительностью до 10 секунд по текстовому описанию. Её архитектурная особенность — всего 2 миллиарда параметров, что делает её исключительно «легковесной». Несмотря на скромные размеры, по результатам внутреннего тестирования она демонстрирует превосходство в общем качестве (учитывающем соответствие промпту, визуал и динамику) над более массивными аналогами, включая Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora. По визуальной составляющей модель сравнима с Wan 2.2 A14B, превосходящей её по объёму параметров более чем в 13 раз.

Отдельное внимание при обучении было уделено российской культурной специфике.

Для этого был создан уникальный датасет, содержащий свыше миллиона изображений и видео, который проходил многоэтапную селекцию силами команды профессиональных художников. Это позволяет модели точно интерпретировать запросы, связанные с национальным контекстом. Дополнительно представлена оптимизированная версия Kandinsky Video Lite Flash, обеспечивающая шестикратное ускорение генерации.

Giga-Embeddings: новый этап для интеллектуального поиска и RAG-систем

Обновлённая текстовая модель Giga-Embeddings, преобразующая семантику текста в векторные пространства, подтвердила статус безусловного лидера для русского языка. Она возглавляет общий рейтинг авторитетного бенчмарка ruMTEB с показателем 74.1, существенно опережая другие открытые решения. При этом модель сохраняет высочайшую конкурентоспособность и в англоязычных задачах, выходя на мировой уровень.

Giga-Embeddings является фундаментом для построения высокоточных RAG-систем (Retrieval-Augmented Generation), которые минимизируют риски генерации недостоверных данных ИИ. Это открывает для корпоративного сектора новые возможности в создании интеллектуального поиска по документам, глубокой аналитике информации и автоматизации клиентской поддержки. Разработчики получают инструмент для быстрого создания умных ассистентов и чат-ботов, способных работать с внутренними данными компании без потери в достоверности ответов.

Обе модели уже доступны для скачивания и интеграции на ведущих ИИ-платформах, предлагая исследователям, инженерам и представителям креативных индустрий мощные технологии для реализации самых амбициозных проектов.

Фото: Firestock.