Публикация была переведена автоматически. Исходный язык: Английский
Обучение с подкреплением (RL) трансформирует большие языковые модели (LLM), позволяя им эволюционировать от простого понимания языка к ролям собеседника, энциклопедического помощника и эксперта по рассуждениям. Подобно тому, как ребенок учится мыслить через школу и взаимодействие с миром, RL служит для LLM "школой", совершенствуя их навыки принятия решений и решения задач через итеративную обратную связь.
RL продвигает три ключевые роли LLM:
- Собеседник: Динамичный, контекстно-осведомленный диалог.
- Помощник: Точные, энциклопедические советы.
- Эксперт по рассуждениям: Решение сложных задач через дедукцию, абдукцию и индукцию.
Подробнее об эволюции RL см. в моем предыдущем посте: From REINFORCE to GRPO: Evolution of Policy Optimization in Reinforcement Learning.
Давайте разберём два недавних примера, которые показывают, какое развитие получает RL для улучшения рассуждений в LLM.
Новейшие достижения RL
Absolute Zero: Самообучение без данных
Источник: Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Общая идея AZR
AZR (Absolute Zero Reasoner) — новый RL-фреймворк, позволяющий LLM улучшать рассуждения без данных, созданных человеком.
- Без внешних данных: Обучение на автогенерируемых кодовых задачах.
- Код как среда: Использует выполнение Python для проверки задач.
- Три режима рассуждений: Дедукция, абдукция, индукция.
- Саморазвивающийся курс: Генерирует задачи, сбалансированные по сложности.
- Двойные роли: Один LLM чередует роли Предлагателя (создает задачи, награждается за обучаемость) и Решателя (решает задачи, награждается за точность).Этот подход обеспечивает автономное улучшение рассуждений.
MiniMax-M1: Рассуждения с CISPO
Источник: MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
Модель с открытым кодом MiniMax-M1 сопоставима с ведущими LLM по рассуждениям, но дешевле, благодаря RL-инновациям, таким как CISPO (Clipped Importance Sampling Policy Optimization).Что нового в CISPO:
- Клиппинг: В отличие от GRPO, отбрасывающего редкие, но значимые токены (например, Однако, Перепроверить), CISPO ограничивает веса важности, сохраняя сигнал обучения.
- Быстрое обучение: Достигает производительности DAPO за 50% шагов, превосходя GRPO по скорости.
- Стабильность: Поддерживает до 16 обновлений вне политики без нестабильности, повышая эффективность.
- Без настройки KL-штрафа: CISPO устраняет необходимость подбирать вес KL-дивергенции, упрощая обучение, но сохраняет стабильность благодаря ограниченному семплированию.
Заключение
RL — основа для развития рассуждений у LLM, позволяя моделям мыслить как исследователям и специалистам. Как ребенок осваивает критическое мышление через опыт, LLM используют RL для решения сложных задач. С инновациями вроде AZR и CISPO RL продолжает развиваться, открывая путь к решению LLM сложных задач, таких как научные открытия и творческое решение проблем в будущем.
Reinforcement Learning (RL) is transforming large language models (LLMs) beyond basic language understanding, enabling them to evolve into sophisticated conversationalists, knowledgeable assistants, and reasoning experts. Just as a child learns to reason through school and real-world interactions, RL acts as a "school" for LLMs, refining their decision-making and problem-solving skills through iterative feedback.
RL drives progress in three key LLM roles:
- Conversationalist: Engaging in dynamic, context-aware dialogue.
- Knowledgeable Assistant: Providing accurate, encyclopedic advice.
- Reasoning Expert: Solving complex problems through logical deduction, abduction, and induction.
For a deeper look at RL’s evolution, see my previous post on policy optimization: From REINFORCE to GRPO: Evolution of Policy Optimization in Reinforcement Learning
Let’s explore two recent breakthroughs that showcase how RL is being developed to improve reasoning in LLM.
RL’s Cutting-Edge Advances
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Source: Absolute Zero: Reinforced Self-play Reasoning with Zero Data
General Idea of AZR
AZR (Absolute Zero Reasoner) is a novel RL framework enabling LLMs to enhance reasoning without human-curated data.
- Zero External Data: Trains on self-generated code-based tasks.
- Code as Environment: Uses Python execution for reliable task validation.
- Three Reasoning Modes: Deduction, abduction, induction.
- Self-Evolving Curriculum: Proposes learnable, balanced tasks.
- Dual Roles: A single LLM alternates as Proposer (generates tasks, rewarded for learnability) and Solver (solves tasks, rewarded for accuracy). This self-play approach drives autonomous reasoning improvement.
MiniMax-M1: CISPO-Powered Reasoning
Source: MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
The open-source MiniMax-M1 model rivals top LLMs in reasoning while being cost-efficient, thanks to RL innovations like CISPO (Clipped Importance Sampling Policy Optimization).
What’s New in CISPO:
- Clipping: Unlike GRPO, which may discard rare but meaningful tokens (e.g., However, Recheck), CISPO clips importance weights, preserving learning signals for better reasoning.
- Faster Learning: Matches DAPO’s performance with 50% fewer training steps, outperforming GRPO in reward learning speed.
- Stable Off-Policy Updates: Supports up to 16 off-policy updates without instability, enabling efficient data reuse.
- No KL Penalty Tuning: CISPO eliminates the need to tune the weight of the KL divergence penalty, simplifying training while maintaining stability through clipped importance sampling.
Conclusion
RL is the backbone of LLM reasoning, pushing models to think like researchers and specialists. Like a child mastering critical thinking through experience, LLMs leverage RL to navigate complex tasks. With innovations like AZR and CISPO, RL continues to evolve, paving the way for LLMs to tackle advanced challenges like scientific discovery and creative problem-solving in the future.