От слов к мудрости: Роль RL в развитии рассуждений у LLM

Обучение с подкреплением (RL) трансформирует большие языковые модели (LLM), позволяя им эволюционировать от простого понимания языка к ролям собеседника, энциклопедического помощника и эксперта по рассуждениям. Подобно тому, как ребенок учится мыслить через школу и взаимодействие с миром, RL служит для LLM "школой", совершенствуя их навыки принятия решений и решения задач через итеративную обратную связь.
RL продвигает три ключевые роли LLM:
- Собеседник: Динамичный, контекстно-осведомленный диалог.
- Помощник: Точные, энциклопедические советы.
- Эксперт по рассуждениям: Решение сложных задач через дедукцию, абдукцию и индукцию.
Подробнее об эволюции RL см. в моем предыдущем посте: From REINFORCE to GRPO: Evolution of Policy Optimization in Reinforcement Learning.
Давайте разберём два недавних примера, которые показывают, какое развитие получает RL для улучшения рассуждений в LLM.
Новейшие достижения RL
Absolute Zero: Самообучение без данных
Источник: Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Общая идея AZR
AZR (Absolute Zero Reasoner) — новый RL-фреймворк, позволяющий LLM улучшать рассуждения без данных, созданных человеком.
- Без внешних данных: Обучение на автогенерируемых кодовых задачах.
- Код как среда: Использует выполнение Python для проверки задач.
- Три режима рассуждений: Дедукция, абдукция, индукция.
- Саморазвивающийся курс: Генерирует задачи, сбалансированные по сложности.
- Двойные роли: Один LLM чередует роли Предлагателя (создает задачи, награждается за обучаемость) и Решателя (решает задачи, награждается за точность).Этот подход обеспечивает автономное улучшение рассуждений.
MiniMax-M1: Рассуждения с CISPO
Источник: MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
Модель с открытым кодом MiniMax-M1 сопоставима с ведущими LLM по рассуждениям, но дешевле, благодаря RL-инновациям, таким как CISPO (Clipped Importance Sampling Policy Optimization).Что нового в CISPO:
- Клиппинг: В отличие от GRPO, отбрасывающего редкие, но значимые токены (например, Однако, Перепроверить), CISPO ограничивает веса важности, сохраняя сигнал обучения.
- Быстрое обучение: Достигает производительности DAPO за 50% шагов, превосходя GRPO по скорости.
- Стабильность: Поддерживает до 16 обновлений вне политики без нестабильности, повышая эффективность.
- Без настройки KL-штрафа: CISPO устраняет необходимость подбирать вес KL-дивергенции, упрощая обучение, но сохраняет стабильность благодаря ограниченному семплированию.
Заключение
RL — основа для развития рассуждений у LLM, позволяя моделям мыслить как исследователям и специалистам. Как ребенок осваивает критическое мышление через опыт, LLM используют RL для решения сложных задач. С инновациями вроде AZR и CISPO RL продолжает развиваться, открывая путь к решению LLM сложных задач, таких как научные открытия и творческое решение проблем в будущем.
Комментарии 1
Авторизуйтесь чтобы оставить комментарий
Олег Яблонский · Июль 3, 2025 11:27
очень познавательно