Языковая модель от Сбер и SberDevices стала лучшей в мире по пониманию текстов на русском языке.
По результатами тестов главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE, языковая модель от Сбера и SberDevices FRED-T5 стала лучшей в мире по пониманию текста. Точнее ее остается только человек. FRED-T5 с большим отрывом опередила другие представленные на лидерборде модели для русского языка.
Сбер начал работать с трансформерными моделями ещё в 2019 году. Тогда компания обучила русскоязычные модели ruBERT и ruGPT-2. После чего в 2020 году с помощью суперкомпьютера Christofari была создана ruGPT-3, которая существует в разных вариантах, один из них насчитывает 13 млрд параметров.
«В отличие от моделей семейства GPT, состоящих только из декодирующих блоков трансформера, модель FRED-T5 содержит также кодирующие блоки, что позволяет ей гораздо эффективнее решать различные задачи в области обработки естественного языка», — поясняет пресс-служба Сбера.
Что касается архитектуры, модель FRED-T5 реализовали на базе нейросети T5, она имеет 1,7 миллиарда параметров и 24 слоя. Модель обучали на задачах восстановления случайно удалённых фрагментов текста на суперкомпьютере Christofari Neo. Весь процесс занял 6 недель и потребовал применения обучающей выборки, содержавшей около 300 ГБ текста.
«В среде специалистов по автоматической обработке естественного языка эту задачу называют MoD (Mixture of Denoisers). Этот подход был предложен ранее командой из Google в модели UL2», — отмечают представители Сбера.
Специалисты компании реализовали этот подход, но с некоторыми существенными изменениями, основанными на результатах собственных исследований.
Сергей Марков, директор Управления экспериментальных систем машинного обучения SberDevices рассказал: «Ведущие исследовательские центры в области машинного обучения в последние годы создают всё более и более крупные нейронные языковые модели. Количество параметров самых больших монолитных нейросетей уже перевалило за 500 миллиардов и продолжает расти. Это беспрецедентные в истории человечества вычислительные проекты. Но прогресс заключается не только в создании всё более огромных нейросетевых монстров, но и в совершенствовании архитектур сетей и методов их обучения. Благодаря этому самые современные модели при том же количестве параметров интеллектуально превосходят своих предшественников. Хорошим примером этого эффекта является нейросеть FRED-T5, которая при сравнительно скромном по нынешним меркам числе параметров стала лидером в понимании русского языка».
Фото: Firestock.