От слов к мудрости: Роль RL в развитии рассуждений у LLM

Обучение с подкреплением (RL) трансформирует большие языковые модели (LLM), позволяя им эволюционировать от простого понимания языка к ролям собеседника, энциклопедического помощника и эксперта по рассуждениям. Подобно тому, как ребенок учится мыслить через школу и взаимодействие с миром, RL служит для LLM "школой", совершенствуя их навыки принятия решений и решения задач через итеративную обратную связь.

RL продвигает три ключевые роли LLM:

  1. Собеседник: Динамичный, контекстно-осведомленный диалог.
  2. Помощник: Точные, энциклопедические советы.
  3. Эксперт по рассуждениям: Решение сложных задач через дедукцию, абдукцию и индукцию.

Подробнее об эволюции RL см. в моем предыдущем посте: From REINFORCE to GRPO: Evolution of Policy Optimization in Reinforcement Learning.

Давайте разберём два недавних примера, которые показывают, какое развитие получает RL для улучшения рассуждений в LLM.

Новейшие достижения RL

Absolute Zero: Самообучение без данных

Источник: Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Общая идея AZR

AZR (Absolute Zero Reasoner) — новый RL-фреймворк, позволяющий LLM улучшать рассуждения без данных, созданных человеком.

  • Без внешних данных: Обучение на автогенерируемых кодовых задачах.
  • Код как среда: Использует выполнение Python для проверки задач.
  • Три режима рассуждений: Дедукция, абдукция, индукция.
  • Саморазвивающийся курс: Генерирует задачи, сбалансированные по сложности.
  • Двойные роли: Один LLM чередует роли Предлагателя (создает задачи, награждается за обучаемость) и Решателя (решает задачи, награждается за точность).Этот подход обеспечивает автономное улучшение рассуждений.

MiniMax-M1: Рассуждения с CISPO

Источник: MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

Модель с открытым кодом MiniMax-M1 сопоставима с ведущими LLM по рассуждениям, но дешевле, благодаря RL-инновациям, таким как CISPO (Clipped Importance Sampling Policy Optimization).Что нового в CISPO:

  • Клиппинг: В отличие от GRPO, отбрасывающего редкие, но значимые токены (например, Однако, Перепроверить), CISPO ограничивает веса важности, сохраняя сигнал обучения.
  • Быстрое обучение: Достигает производительности DAPO за 50% шагов, превосходя GRPO по скорости.
  • Стабильность: Поддерживает до 16 обновлений вне политики без нестабильности, повышая эффективность.
  • Без настройки KL-штрафа: CISPO устраняет необходимость подбирать вес KL-дивергенции, упрощая обучение, но сохраняет стабильность благодаря ограниченному семплированию.

Заключение

RL — основа для развития рассуждений у LLM, позволяя моделям мыслить как исследователям и специалистам. Как ребенок осваивает критическое мышление через опыт, LLM используют RL для решения сложных задач. С инновациями вроде AZR и CISPO RL продолжает развиваться, открывая путь к решению LLM сложных задач, таких как научные открытия и творческое решение проблем в будущем.

Комментарии 1

Авторизуйтесь чтобы оставить комментарий

очень познавательно

Ответить