Использован автоперевод

От REINFORCE к GRPO: Эволюция политики оптимизации обучения с подкреплением

Обучение с подкреплением (RL) - это система, в которой агент учится принимать решения, взаимодействуя с окружающей средой, выбирая действия, получая вознаграждение и стремясь максимизировать накопленное вознаграждение с течением времени. Основные компоненты включают агента, окружающую среду, действия и вознаграждения. Цель состоит в том, чтобы найти оптимальную политику — стратегию выбора действий, которая максимизирует долгосрочное вознаграждение. В отличие от методов, основанных на оценке ценности действий, методы оптимизации политики напрямую корректируют параметры политики для максимизации ожидаемого вознаграждения. Для более глубокого ознакомления с основами RL ознакомьтесь с книгой Sutton и Barto’s Reinforcement Learning: An Introduction.   

1. REINFORSE: пионер градиента

REINFORCE, предложенный Ronald J. Williams в 1992 году, является одним из самых ранних методов градиентной политики. Он корректирует политику, следуя градиенту ожидаемых вознаграждений, рассчитанному на основе выборочных эпизодов с использованием методов Монте-Карло. Простой и интуитивно понятный, REINFORCE страдает от высокой дисперсии в оценках градиента из-за зашумленных выборок, что приводит к нестабильному и медленному обучению, особенно в сложных задачах. Практическое объяснение градиентов политик Reinforcement Learning: An Introduction.   

2. TRPO: стабильность через ограничения

Trust Region Policy Optimization (TRPO), разработанная Шульманом и соавторами в 2015 году, устраняет нестабильность, ограничивая обновление политики с помощью KL-дивергенции в "регионе доверия". Это обеспечивает монотонное улучшение и повышает стабильность, что делает его эффективным для сложных сред. Однако его вычислительная сложность — из-за приближений второго порядка — делает его непрактичным для больших моделей. Подробная информация доступна в OpenAI’s Spinning Up guide on TRPO.   

3. PPO: простота и эффективность

Proximal Policy Optimization (PPO), представленная в 2017 году, упрощает механизмы обеспечения стабильности TRPO с помощью упрощенной суррогатной цели для ограничения изменений политики. PPO проста в реализации, эффективна в вычислительном отношении и хорошо справляется с целым рядом задач. Тем не менее, его простота иногда может привести к нестабильности в сложных сценариях. Ознакомьтесь с его механикой в OpenAI’s Spinning Up guide on PPO.  

4. GRPO: разработано для больших языковых моделей

Group Relative Policy Optimization (GRPO), представленная в статье DeepSeekMath за 2024 год, адаптирует PPO для тонкой настройки больших языковых моделей (LLM). GRPO вводит группировку данных для группирования схожих задач (например, математических задач) и вычисляет относительные преимущества внутри этих групп для получения точных и стабильных обновлений. В нем удаляется функция Value для оптимизации использования памяти, что крайне важно для моделей с миллиардами параметров, что увеличивает дисперсию, делая оценки преимуществ более зашумленными. GRPO устраняет это с помощью группировки данных и таких методов, как нормализация вознаграждения. 

5. Почему GRPO для LLM?

Тонкая настройка больших языковых моделей (LLM) требует стабильности для сохранения предварительно подготовленных знаний и эффективности для управления огромными вычислительными ресурсами. Хотя PPO широко используется, его единообразные обновления и зависимость от функции значений могут быть неэффективными для LLM. Группировка данных GRPO позволяет целенаправленно обновлять данные, а оптимизация памяти подходит для массивных моделей. Однако увеличение дисперсии из-за удаления функции значений требует тщательных методов стабилизации. 

Выводы

Переход от REINFORCE к GRPO отражает адаптацию RL к растущей сложности: 

  • REINFORCE: Простой, но с высокой дисперсией. 
  • TRPO: Стабильный, но требующий больших вычислительных затрат. 
  • PPO: Эффективный и универсальный, хотя и не безупречный. 
  • GRPO: Специализированный для LLM, позволяющий группировать данные и оптимизировать память, но требующий тщательной настройки. 

В каждом методе учитывались конкретные ограничения, присущие его предшественникам, и в то же время предлагались новые компромиссы, а GRPO стал индивидуальным решением для тонкой настройки LLM в специализированных областях. Эта эволюция подчеркивает постоянное стремление RL к балансу между простотой, стабильностью и масштабируемостью по мере роста задач. 

Комментарии 3

Авторизуйтесь чтобы оставить комментарий