Применение контекстного обучения с подкреплением облегчает работу разработчиков ИИ-моделей, позволяя выбирать алгоритмы, настраивать гиперпараметры и внедрять новые технологии. Этот метод особенно эффективен для обучения ИИ принимать решения.
Контекстное обучение с подкрепление: что это такое
Контекстное обучение с подкреплением — это инновационное направление в исследованиях искусственного интеллекта, которое фокусируется на создании моделей, способных не только хорошо справляться со всеми учебными задачами одновременно, но и быстро адаптироваться к новым задачам с минимальными затратами времени.
Например, многие чат-боты могут освоить новую задачу, если добавить в подсказку примеры её решения.
В рамках этого процесса ИИ-агент исследует среду, определяет успешные и неудачные действия, затем переходит к фазе эксплуатации успешных действий, чтобы найти оптимальный механизм обучения, который обеспечит максимальную награду за наименьшее количество шагов.
В контексте ICRL (In-Context Reinforcement Learning) отсутствует стандартизация, и авторы предыдущих исследований были вынуждены создавать новые датасеты с нуля. Однако научная группа «Адаптивные агенты» AIRI и лаборатория T-Bank AI Research представили датасет XLand-MiniGrid, содержащий 100 миллиардов кортежей (фиксированных наборов данных), который теперь доступен для учёных и разработчиков. Этот датасет может быть использован для создания ИИ-систем, которые легко адаптируются к новым задачам без участия узких специалистов, а также для генерации синтетических данных.
Датасет был проверен с использованием графиков обучающих историй, которые упорядочивают траектории по возрастанию общей награды за эпизод.
Владислав Куренков, руководитель группы «Адаптивные агенты» Института искусственного интеллекта AIRI: «В свое время похожий на появление контекстного обучения с подкреплением прорыв произошел в области обработки естественного языка. Раньше люди обучали разные модели под разные задачи, но с появлением GPT-like методов смогли обходиться одной. Теперь вместо длительного процесса обучения для многих задач применяют лишь немного промпт-инжиниринга. Проблема в том, что GPT-like методы очень плохо решают задачи exploration-exploitation из-за специфики их данных – условно, весь интернет. Именно для этого и нужны такие датасеты. В будущем он может быть включен и в мультимодальные модели».
Фото: Firestock.