Auto-translation used

Read the original

От слов к мудрости: Роль RL в развитии рассуждений у LLM

Обучение с подкреплением (RL) трансформирует большие языковые модели (LLM), позволяя им эволюционировать от простого понимания языка к ролям собеседника, энциклопедического помощника и эксперта по рассуждениям. Подобно тому, как ребенок учится мыслить через школу и взаимодействие с миром, RL служит для LLM "школой", совершенствуя их навыки принятия решений и решения задач через итеративную обратную связь.

RL продвигает три ключевые роли LLM:

Собеседник: Динамичный, контекстно-осведомленный диалог.
Помощник: Точные, энциклопедические советы.
Эксперт по рассуждениям: Решение сложных задач через дедукцию, абдукцию и индукцию.

Подробнее об эволюции RL см. в моем предыдущем посте: From REINFORCE to GRPO: Evolution of Policy Optimization in Reinforcement Learning.

Давайте разберём два недавних примера, которые показывают, какое развитие получает RL для улучшения рассуждений в LLM.

Новейшие достижения RL

Absolute Zero: Самообучение без данных

Источник: Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Общая идея AZR

AZR (Absolute Zero Reasoner) — новый RL-фреймворк, позволяющий LLM улучшать рассуждения без данных, созданных человеком.

Без внешних данных: Обучение на автогенерируемых кодовых задачах.
Код как среда: Использует выполнение Python для проверки задач.
Три режима рассуждений: Дедукция, абдукция, индукция.
Саморазвивающийся курс: Генерирует задачи, сбалансированные по сложности.
Двойные роли: Один LLM чередует роли Предлагателя (создает задачи, награждается за обучаемость) и Решателя (решает задачи, награждается за точность).Этот подход обеспечивает автономное улучшение рассуждений.

MiniMax-M1: Рассуждения с CISPO

Источник: MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

Модель с открытым кодом MiniMax-M1 сопоставима с ведущими LLM по рассуждениям, но дешевле, благодаря RL-инновациям, таким как CISPO (Clipped Importance Sampling Policy Optimization).Что нового в CISPO:

Клиппинг: В отличие от GRPO, отбрасывающего редкие, но значимые токены (например, Однако, Перепроверить), CISPO ограничивает веса важности, сохраняя сигнал обучения.
Быстрое обучение: Достигает производительности DAPO за 50% шагов, превосходя GRPO по скорости.
Стабильность: Поддерживает до 16 обновлений вне политики без нестабильности, повышая эффективность.
Без настройки KL-штрафа: CISPO устраняет необходимость подбирать вес KL-дивергенции, упрощая обучение, но сохраняет стабильность благодаря ограниченному семплированию.

Заключение

RL — основа для развития рассуждений у LLM, позволяя моделям мыслить как исследователям и специалистам. Как ребенок осваивает критическое мышление через опыт, LLM используют RL для решения сложных задач. С инновациями вроде AZR и CISPO RL продолжает развиваться, открывая путь к решению LLM сложных задач, таких как научные открытия и творческое решение проблем в будущем.

From Words to Wisdom: RL’s Role in LLM Reasoning

Reinforcement Learning (RL) is transforming large language models (LLMs) beyond basic language understanding, enabling them to evolve into sophisticated conversationalists, knowledgeable assistants, and reasoning experts. Just as a child learns to reason through school and real-world interactions, RL acts as a "school" for LLMs, refining their decision-making and problem-solving skills through iterative feedback.

RL drives progress in three key LLM roles:

Conversationalist: Engaging in dynamic, context-aware dialogue.
Knowledgeable Assistant: Providing accurate, encyclopedic advice.
Reasoning Expert: Solving complex problems through logical deduction, abduction, and induction.

For a deeper look at RL’s evolution, see my previous post on policy optimization: From REINFORCE to GRPO: Evolution of Policy Optimization in Reinforcement Learning

Let’s explore two recent breakthroughs that showcase how RL is being developed to improve reasoning in LLM.

RL’s Cutting-Edge Advances

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Source: Absolute Zero: Reinforced Self-play Reasoning with Zero Data

General Idea of AZR

AZR (Absolute Zero Reasoner) is a novel RL framework enabling LLMs to enhance reasoning without human-curated data.

Zero External Data: Trains on self-generated code-based tasks.
Code as Environment: Uses Python execution for reliable task validation.
Three Reasoning Modes: Deduction, abduction, induction.
Self-Evolving Curriculum: Proposes learnable, balanced tasks.
Dual Roles: A single LLM alternates as Proposer (generates tasks, rewarded for learnability) and Solver (solves tasks, rewarded for accuracy). This self-play approach drives autonomous reasoning improvement.

MiniMax-M1: CISPO-Powered Reasoning

Source: MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

The open-source MiniMax-M1 model rivals top LLMs in reasoning while being cost-efficient, thanks to RL innovations like CISPO (Clipped Importance Sampling Policy Optimization).

What’s New in CISPO:

Clipping: Unlike GRPO, which may discard rare but meaningful tokens (e.g., However, Recheck), CISPO clips importance weights, preserving learning signals for better reasoning.
Faster Learning: Matches DAPO’s performance with 50% fewer training steps, outperforming GRPO in reward learning speed.
Stable Off-Policy Updates: Supports up to 16 off-policy updates without instability, enabling efficient data reuse.
No KL Penalty Tuning: CISPO eliminates the need to tune the weight of the KL divergence penalty, simplifying training while maintaining stability through clipped importance sampling.

Conclusion

RL is the backbone of LLM reasoning, pushing models to think like researchers and specialists. Like a child mastering critical thinking through experience, LLMs leverage RL to navigate complex tasks. With innovations like AZR and CISPO, RL continues to evolve, paving the way for LLMs to tackle advanced challenges like scientific discovery and creative problem-solving in the future.

194

Денис Вылегжанин
July 2, 2025 22:36

Comments 2

Анна Бузулуцкая · July 4, 2025 15:45

Интересное и понятное сравнение в ребенком) Спасибо!

Олег Яблонский · July 3, 2025 11:27

очень познавательно

История Очистить

Popular posts

The most sought-after programming languages in 2025

Кирилл Коваленко
July 15, 2025

, Part 10. Enabling it. Do investors understand exactly how this should work?

Andrey Zhuravlev
July 11, 2025

Artificial intelligence and cybersecurity in 2025: a double challenge for organizations

malik berdigaliyev
July 11, 2025

Artificial Intelligence in 2025: Trends that are changing the industry

Дінмухамед Асылбеков
June 27, 2025

От слов к мудрости: Роль RL в развитии рассуждений у LLM

From Words to Wisdom: RL’s Role in LLM Reasoning

Денис Вылегжанин
July 2, 2025 22:36

Comments 2

Анна Бузулуцкая · July 4, 2025 15:45

Олег Яблонский · July 3, 2025 11:27

Popular posts

The most sought-after programming languages in 2025

Кирилл Коваленко July 15, 2025

, Part 10. Enabling it. Do investors understand exactly how this should work?

Andrey Zhuravlev July 11, 2025

Artificial intelligence and cybersecurity in 2025: a double challenge for organizations

malik berdigaliyev July 11, 2025

Artificial Intelligence in 2025: Trends that are changing the industry

Дінмухамед Асылбеков June 27, 2025

От слов к мудрости: Роль RL в развитии рассуждений у LLM

From Words to Wisdom: RL’s Role in LLM Reasoning

Денис Вылегжанин July 2, 2025 22:36

Comments 2

Анна Бузулуцкая · July 4, 2025 15:45

Олег Яблонский · July 3, 2025 11:27

Кирилл Коваленко
July 15, 2025

Andrey Zhuravlev
July 11, 2025

malik berdigaliyev
July 11, 2025

Дінмухамед Асылбеков
June 27, 2025

Денис Вылегжанин
July 2, 2025 22:36