В рамках отраслевого форума «День ИИ» в Сколково Сбер сделал значительный жест в сторону open-source сообщества, представив две ключевые разработки своих исследователей. Технологический гигант опубликовал в открытом доступе усовершенствованную модель для создания векторных представлений текста Giga-Embeddings и компактную генеративную модель для видео Kandinsky Video Lite. Обе новинки распространяются по либеральной лицензии, снимающей барьеры для их интеграции в коммерческие продукты.
Как отметил Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка, эта инициатива продолжает стратегию банка по открытой публикации своих наработок в области генеративного ИИ, куда уже входят все модели семейства Kandinsky и русскоязычные акустические модели GigaAM.
«Предоставление профессиональному сообществу таких инструментов, как Kandinsky Video Lite и Giga-Embeddings, служит катализатором для научных изысканий и создания прорывных сервисов. Это не только подтверждает нашу приверженность развитию глобального open-source движения, но и задает новые стандарты в области NLP, укрепляя позиции страны в качестве одного из технологических лидеров», — подчеркнул Белевцев.
Kandinsky Video Lite: мощь в компактном формате
Новая видео-модель позволяет генерировать короткие ролики продолжительностью до 10 секунд по текстовому описанию. Её архитектурная особенность — всего 2 миллиарда параметров, что делает её исключительно «легковесной». Несмотря на скромные размеры, по результатам внутреннего тестирования она демонстрирует превосходство в общем качестве (учитывающем соответствие промпту, визуал и динамику) над более массивными аналогами, включая Wan 2.1 14B, Wan 2.2 5B и оригинальную Sora. По визуальной составляющей модель сравнима с Wan 2.2 A14B, превосходящей её по объёму параметров более чем в 13 раз.
Отдельное внимание при обучении было уделено российской культурной специфике.
Для этого был создан уникальный датасет, содержащий свыше миллиона изображений и видео, который проходил многоэтапную селекцию силами команды профессиональных художников. Это позволяет модели точно интерпретировать запросы, связанные с национальным контекстом. Дополнительно представлена оптимизированная версия Kandinsky Video Lite Flash, обеспечивающая шестикратное ускорение генерации.
Giga-Embeddings: новый этап для интеллектуального поиска и RAG-систем
Обновлённая текстовая модель Giga-Embeddings, преобразующая семантику текста в векторные пространства, подтвердила статус безусловного лидера для русского языка. Она возглавляет общий рейтинг авторитетного бенчмарка ruMTEB с показателем 74.1, существенно опережая другие открытые решения. При этом модель сохраняет высочайшую конкурентоспособность и в англоязычных задачах, выходя на мировой уровень.
Giga-Embeddings является фундаментом для построения высокоточных RAG-систем (Retrieval-Augmented Generation), которые минимизируют риски генерации недостоверных данных ИИ. Это открывает для корпоративного сектора новые возможности в создании интеллектуального поиска по документам, глубокой аналитике информации и автоматизации клиентской поддержки. Разработчики получают инструмент для быстрого создания умных ассистентов и чат-ботов, способных работать с внутренними данными компании без потери в достоверности ответов.
Обе модели уже доступны для скачивания и интеграции на ведущих ИИ-платформах, предлагая исследователям, инженерам и представителям креативных индустрий мощные технологии для реализации самых амбициозных проектов.
Фото: Firestock.