Публикация была переведена автоматически. Исходный язык: Английский
Обучение с подкреплением (RL) - это система, в которой агент учится принимать решения, взаимодействуя с окружающей средой, выбирая действия, получая вознаграждение и стремясь максимизировать накопленное вознаграждение с течением времени. Основные компоненты включают агента, окружающую среду, действия и вознаграждения. Цель состоит в том, чтобы найти оптимальную политику — стратегию выбора действий, которая максимизирует долгосрочное вознаграждение. В отличие от методов, основанных на оценке ценности действий, методы оптимизации политики напрямую корректируют параметры политики для максимизации ожидаемого вознаграждения. Для более глубокого ознакомления с основами RL ознакомьтесь с книгой Sutton и Barto’s Reinforcement Learning: An Introduction.
1. REINFORSE: пионер градиента
REINFORCE, предложенный Ronald J. Williams в 1992 году, является одним из самых ранних методов градиентной политики. Он корректирует политику, следуя градиенту ожидаемых вознаграждений, рассчитанному на основе выборочных эпизодов с использованием методов Монте-Карло. Простой и интуитивно понятный, REINFORCE страдает от высокой дисперсии в оценках градиента из-за зашумленных выборок, что приводит к нестабильному и медленному обучению, особенно в сложных задачах. Практическое объяснение градиентов политик Reinforcement Learning: An Introduction.
2. TRPO: стабильность через ограничения
Trust Region Policy Optimization (TRPO), разработанная Шульманом и соавторами в 2015 году, устраняет нестабильность, ограничивая обновление политики с помощью KL-дивергенции в "регионе доверия". Это обеспечивает монотонное улучшение и повышает стабильность, что делает его эффективным для сложных сред. Однако его вычислительная сложность — из-за приближений второго порядка — делает его непрактичным для больших моделей. Подробная информация доступна в OpenAI’s Spinning Up guide on TRPO.
3. PPO: простота и эффективность
Proximal Policy Optimization (PPO), представленная в 2017 году, упрощает механизмы обеспечения стабильности TRPO с помощью упрощенной суррогатной цели для ограничения изменений политики. PPO проста в реализации, эффективна в вычислительном отношении и хорошо справляется с целым рядом задач. Тем не менее, его простота иногда может привести к нестабильности в сложных сценариях. Ознакомьтесь с его механикой в OpenAI’s Spinning Up guide on PPO.
4. GRPO: разработано для больших языковых моделей
Group Relative Policy Optimization (GRPO), представленная в статье DeepSeekMath за 2024 год, адаптирует PPO для тонкой настройки больших языковых моделей (LLM). GRPO вводит группировку данных для группирования схожих задач (например, математических задач) и вычисляет относительные преимущества внутри этих групп для получения точных и стабильных обновлений. В нем удаляется функция Value для оптимизации использования памяти, что крайне важно для моделей с миллиардами параметров, что увеличивает дисперсию, делая оценки преимуществ более зашумленными. GRPO устраняет это с помощью группировки данных и таких методов, как нормализация вознаграждения.
5. Почему GRPO для LLM?
Тонкая настройка больших языковых моделей (LLM) требует стабильности для сохранения предварительно подготовленных знаний и эффективности для управления огромными вычислительными ресурсами. Хотя PPO широко используется, его единообразные обновления и зависимость от функции значений могут быть неэффективными для LLM. Группировка данных GRPO позволяет целенаправленно обновлять данные, а оптимизация памяти подходит для массивных моделей. Однако увеличение дисперсии из-за удаления функции значений требует тщательных методов стабилизации.
Выводы
Переход от REINFORCE к GRPO отражает адаптацию RL к растущей сложности:
- REINFORCE: Простой, но с высокой дисперсией.
- TRPO: Стабильный, но требующий больших вычислительных затрат.
- PPO: Эффективный и универсальный, хотя и не безупречный.
- GRPO: Специализированный для LLM, позволяющий группировать данные и оптимизировать память, но требующий тщательной настройки.
В каждом методе учитывались конкретные ограничения, присущие его предшественникам, и в то же время предлагались новые компромиссы, а GRPO стал индивидуальным решением для тонкой настройки LLM в специализированных областях. Эта эволюция подчеркивает постоянное стремление RL к балансу между простотой, стабильностью и масштабируемостью по мере роста задач.
Reinforcement Learning (RL) is a framework where an agent learns to make decisions by interacting with an environment, selecting actions, receiving rewards, and aiming to maximize cumulative reward over time. Core components include the agent, environment, actions, and rewards. The goal is to discover an optimal policy—a strategy for choosing actions that maximizes long-term rewards. Unlike value-based methods that estimate action values, policy optimization methods directly adjust policy parameters to maximize expected rewards. For a deeper dive into RL fundamentals, see Sutton and Barto’s Reinforcement Learning: An Introduction.
1. REINFORCE: The Gradient Pioneer
REINFORCE, introduced by Ronald J. Williams in 1992, is one of the earliest policy gradient methods. It adjusts the policy by following the gradient of expected rewards, estimated from sampled episodes using Monte Carlo methods. Simple and intuitive, REINFORCE suffers from high variance in gradient estimates due to noisy samples, leading to unstable and slow learning, particularly in complex tasks. For a practical explanation of policy gradients, see OpenAI’s Spinning Up guide on Vanilla Policy Gradient.
2. TRPO: Stability Through Constraints
Trust Region Policy Optimization (TRPO), developed by Schulman et al. in 2015, tackles instability by constraining policy updates using KL-divergence within a "trust region." This ensures monotonic improvement and enhances stability, making it effective for complex environments. However, its computational complexity—due to second-order approximations—makes it impractical for large models. Details on implementation are available in OpenAI’s Spinning Up guide on TRPO.
3. PPO: Simplicity and Efficiency
Proximal Policy Optimization (PPO), introduced in 2017, simplifies TRPO’s stability mechanisms with a clipped surrogate objective to limit policy changes. PPO is easy to implement, computationally efficient, and performs well across a range of tasks. Yet, its simplicity can sometimes result in instability in sensitive scenarios. Explore its mechanics in OpenAI’s Spinning Up guide on PPO.
4. GRPO: Tailored for Large Language Models
Group Relative Policy Optimization (GRPO), presented in the 2024 DeepSeekMath paper, adapts PPO for fine-tuning large language models (LLMs). GRPO introduces data grouping to cluster similar tasks (e.g., math problems) and computes relative advantages within these groups for precise, stable updates. It removes the Value function to optimize memory usage—crucial for billion-parameter models—which increases variance by making advantage estimates noisier. GRPO mitigates this with data grouping and techniques like reward normalization.
5. Why GRPO for LLMs?
Fine-tuning large language models (LLMs) demands stability to preserve pre-trained knowledge and efficiency to manage vast computational resources. While PPO is widely used, its uniform updates and reliance on a Value function can be inefficient for LLMs. GRPO’s data grouping enables targeted updates, and its memory optimizations suit massive models. However, the increased variance from removing the Value function requires careful stabilization techniques.
Conclusions
The journey from REINFORCE to GRPO reflects RL’s adaptation to escalating complexity:
- REINFORCE: Simple but hampered by high variance.
- TRPO: Stable yet computationally intensive.
- PPO: Efficient and versatile, though not flawless.
- GRPO: Specialized for LLMs, leveraging data grouping and memory optimization, but requiring meticulous tuning.
Each method addressed specific limitations of its predecessors while introducing new trade-offs, with GRPO emerging as a tailored solution for fine-tuning LLMs in specialized domains. This evolution highlights RL’s ongoing pursuit of balance between simplicity, stability, and scalability as challenges grow.