Автоматты аударма пайдаланылды

Түпнұсқаны оқыңыз

От REINFORCE к GRPO: Эволюция политики оптимизации обучения с подкреплением

Обучение с подкреплением (RL) - это система, в которой агент учится принимать решения, взаимодействуя с окружающей средой, выбирая действия, получая вознаграждение и стремясь максимизировать накопленное вознаграждение с течением времени. Основные компоненты включают агента, окружающую среду, действия и вознаграждения. Цель состоит в том, чтобы найти оптимальную политику — стратегию выбора действий, которая максимизирует долгосрочное вознаграждение. В отличие от методов, основанных на оценке ценности действий, методы оптимизации политики напрямую корректируют параметры политики для максимизации ожидаемого вознаграждения. Для более глубокого ознакомления с основами RL ознакомьтесь с книгой Sutton и Barto’s Reinforcement Learning: An Introduction.

1. REINFORSE: пионер градиента

REINFORCE, предложенный Ronald J. Williams в 1992 году, является одним из самых ранних методов градиентной политики. Он корректирует политику, следуя градиенту ожидаемых вознаграждений, рассчитанному на основе выборочных эпизодов с использованием методов Монте-Карло. Простой и интуитивно понятный, REINFORCE страдает от высокой дисперсии в оценках градиента из-за зашумленных выборок, что приводит к нестабильному и медленному обучению, особенно в сложных задачах. Практическое объяснение градиентов политик Reinforcement Learning: An Introduction.

2. TRPO: стабильность через ограничения

Trust Region Policy Optimization (TRPO), разработанная Шульманом и соавторами в 2015 году, устраняет нестабильность, ограничивая обновление политики с помощью KL-дивергенции в "регионе доверия". Это обеспечивает монотонное улучшение и повышает стабильность, что делает его эффективным для сложных сред. Однако его вычислительная сложность — из-за приближений второго порядка — делает его непрактичным для больших моделей. Подробная информация доступна в OpenAI’s Spinning Up guide on TRPO.

3. PPO: простота и эффективность

Proximal Policy Optimization (PPO), представленная в 2017 году, упрощает механизмы обеспечения стабильности TRPO с помощью упрощенной суррогатной цели для ограничения изменений политики. PPO проста в реализации, эффективна в вычислительном отношении и хорошо справляется с целым рядом задач. Тем не менее, его простота иногда может привести к нестабильности в сложных сценариях. Ознакомьтесь с его механикой в OpenAI’s Spinning Up guide on PPO.

4. GRPO: разработано для больших языковых моделей

Group Relative Policy Optimization (GRPO), представленная в статье DeepSeekMath за 2024 год, адаптирует PPO для тонкой настройки больших языковых моделей (LLM). GRPO вводит группировку данных для группирования схожих задач (например, математических задач) и вычисляет относительные преимущества внутри этих групп для получения точных и стабильных обновлений. В нем удаляется функция Value для оптимизации использования памяти, что крайне важно для моделей с миллиардами параметров, что увеличивает дисперсию, делая оценки преимуществ более зашумленными. GRPO устраняет это с помощью группировки данных и таких методов, как нормализация вознаграждения.

5. Почему GRPO для LLM?

Тонкая настройка больших языковых моделей (LLM) требует стабильности для сохранения предварительно подготовленных знаний и эффективности для управления огромными вычислительными ресурсами. Хотя PPO широко используется, его единообразные обновления и зависимость от функции значений могут быть неэффективными для LLM. Группировка данных GRPO позволяет целенаправленно обновлять данные, а оптимизация памяти подходит для массивных моделей. Однако увеличение дисперсии из-за удаления функции значений требует тщательных методов стабилизации.

Выводы

Переход от REINFORCE к GRPO отражает адаптацию RL к растущей сложности:

REINFORCE: Простой, но с высокой дисперсией.

TRPO: Стабильный, но требующий больших вычислительных затрат.

PPO: Эффективный и универсальный, хотя и не безупречный.

GRPO: Специализированный для LLM, позволяющий группировать данные и оптимизировать память, но требующий тщательной настройки.

В каждом методе учитывались конкретные ограничения, присущие его предшественникам, и в то же время предлагались новые компромиссы, а GRPO стал индивидуальным решением для тонкой настройки LLM в специализированных областях. Эта эволюция подчеркивает постоянное стремление RL к балансу между простотой, стабильностью и масштабируемостью по мере роста задач.

REINFORCE - тен GRPO - ға дейін: күшейтілген оқытуды оңтайландыру саясатының эволюциясы

Арматуралық оқыту (RL) - бұл агент қоршаған ортамен өзара әрекеттесу, іс-әрекеттерді таңдау, сыйақы алу және уақыт өте келе жинақталған сыйақыны барынша арттыруға ұмтылу арқылы шешім қабылдауға Үйренетін жүйе. Негізгі компоненттерге агент, қоршаған орта, әрекеттер және сыйақылар кіреді. Мақсат — оңтайлы саясатты табу-ұзақ мерзімді сыйақыны барынша арттыратын әрекеттерді таңдау стратегиясы. Іс-әрекеттің құндылығын бағалауға негізделген әдістерден айырмашылығы, саясатты оңтайландыру әдістері күтілетін сыйақыны барынша арттыру үшін саясат параметрлерін тікелей реттейді. RL негіздерімен тереңірек танысу үшін кітапты қараңыз Sutton және Barto ' s Reinforcement Learning: An Introduction.

1. REINFORSE: градиент пионері

1992 жылы Рональд Дж. Уильямс ұсынған REINFORCE градиент саясатының алғашқы әдістерінің бірі болып табылады. Ол Монте-Карло әдістерін қолдана отырып, таңдамалы эпизодтар негізінде есептелген күтілетін сыйақы градиентіне сәйкес саясатты түзетеді. Қарапайым және интуитивті, REINFORCE шулы үлгілерге байланысты градиент ұпайларында жоғары дисперсиядан зардап шегеді, бұл тұрақсыз және баяу оқуға әкеледі, әсіресе қиын тапсырмаларда. Reinforcement Learning: An Introduction саясатының градиенттерін практикалық түсіндіру.

2. TRPO: шектеулер арқылы тұрақтылық

2015 жылы Шульман және оның авторлары әзірлеген Trust Region Policy Optimization (TRPO) "сенім аймағында"KL дивергенциясы арқылы саясатты жаңартуды шектеу арқылы тұрақсыздықты жояды. Бұл монотонды жақсартуды қамтамасыз етеді және тұрақтылықты арттырады, бұл оны күрделі орталар үшін тиімді етеді. Алайда, оның есептеу күрделілігі-екінші ретті жуықтауларға байланысты-оны үлкен модельдер үшін практикалық емес етеді. Толық ақпарат OpenAI ' s Spinning Up guide on TRPO сайтында қолжетімді.

3. PPO: қарапайымдылық және тиімділік

2017 жылы енгізілген Proximal Policy Optimization (PPO) саясаттың өзгеруін шектеу үшін жеңілдетілген суррогат мақсатымен TRPO тұрақтылық механизмдерін жеңілдетеді. PPO іске асыру оңай, есептеу тиімді және бірқатар тапсырмаларды жақсы орындайды. Дегенмен, оның қарапайымдылығы кейде күрделі сценарийлерде тұрақсыздыққа әкелуі мүмкін. Оның механикасын OpenAI ' s Spinning Up guide on PPO-да тексеріңіз.

4. GRPO: үлкен тілдік модельдерге арналған

DeepSeekMath-тің 2024 жылғы мақаласында ұсынылған Group Relative Policy Optimization (GRPO) PPO-ны үлкен тілдік модельдерді (LLM) дәл баптауға бейімдейді. GRPO ұқсас есептерді (мысалы, математикалық есептер) топтастыру үшін деректерді топтастыруды енгізеді және дәл және тұрақты жаңартуларды алу үшін осы топтардағы салыстырмалы артықшылықтарды есептейді. Ол жадты пайдалануды оңтайландыру үшін Value функциясын жояды, бұл миллиардтаған параметрлері бар модельдер үшін өте маңызды, бұл дисперсияны арттырады, артықшылықтарды бағалауды шулы етеді. GRPO мұны деректерді топтастыру және сыйақыны қалыпқа келтіру сияқты әдістер арқылы жояды.

5. Неліктен LLM үшін GRPO?

Үлкен тілдік модельдерді (LLM) дәл баптау үлкен есептеу ресурстарын басқару үшін алдын-ала дайындалған білім мен тиімділікті сақтау үшін тұрақтылықты қажет етеді. PPO кеңінен қолданылғанымен, оның біркелкі жаңартулары және мәндер функциясына тәуелділігі LLM үшін тиімсіз болуы мүмкін. Grpo деректерін топтастыру деректерді мақсатты түрде жаңартуға мүмкіндік береді, ал жадты оңтайландыру жаппай модельдерге сәйкес келеді. Алайда, мәндер функциясының жойылуына байланысты дисперсияның жоғарылауы Мұқият тұрақтандыру әдістерін қажет етеді.

Қорытындылар

REINFORCE тен GRPO ға көшу rl дің өсіп келе жатқан күрделілікке бейімделуін көрсетеді:

REINFORCE: қарапайым, бірақ жоғары дисперсиямен.

TRPO: тұрақты, бірақ көп есептеу шығындарын қажет етеді.

PPO: мінсіз болмаса да, тиімді және жан-жақты.

GRPO: деректерді топтастыруға және жадты оңтайландыруға мүмкіндік беретін, бірақ мұқият орнатуды қажет ететін LLM үшін мамандандырылған.

Әр әдіс өзінен бұрынғыларға тән нақты шектеулерді ескеріп, сонымен бірге жаңа компаға келуді ұсынды, ал GRPO мамандандырылған салаларда LLM-ді дәл баптаудың жеке шешімі болды. Бұл эволюция RL-дің тапсырмалар өскен сайын қарапайымдылық, тұрақтылық және масштабталу арасындағы тепе-теңдікке деген тұрақты ұмтылысын көрсетеді.

2307

Денис Вылегжанин
Наурыз 20, 2025 21:59

Пікірлер 0

Кіру пікір қалдыру үшін

История Очистить

Популярные посты

Біз Aurma-ны өсуге қалай дайындадық: Yandex Cloud-тағы Инфрақұрылым туралы, ол көрінбейді, бірақ маңызды

Виктория Унгурян
Там. 11, 2025

🤖 Жасанды интеллект: ақылды көмекші ме, әлде білімнің болашағына шақыру ма?

ЕРЛАН АБДРАИМОВ
Там. 1, 2025

2025 жылы ең көп сұранысқа ие бағдарламалау тілдері

Кирилл Коваленко
Шілде 15, 2025

📘 ХХІ ғасырдағы білім: біз неге үйренеміз және ол қалай өзгереді

ЕРЛАН АБДРАИМОВ
Там. 1, 2025

От REINFORCE к GRPO: Эволюция политики оптимизации обучения с подкреплением

REINFORCE - тен GRPO - ға дейін: күшейтілген оқытуды оңтайландыру саясатының эволюциясы

Денис Вылегжанин
Наурыз 20, 2025 21:59

Пікірлер 0

Анна Бузулуцкая · Сәуір 7, 2025 15:45

Олег Яблонский · Сәуір 3, 2025 16:36

Олег Яблонский · Сәуір 3, 2025 16:36

Kuandyk Sadykov · Наурыз 31, 2025 23:22

Бибигуль Кандарбекова · Наурыз 31, 2025 11:41

Max Leman · Наурыз 29, 2025 22:43

Kuandyk Sadykov · Наурыз 25, 2025 04:34

Еламан Армия · Наурыз 25, 2025 01:02

Ainur Shamkelova · Наурыз 24, 2025 09:33

Популярные посты

Біз Aurma-ны өсуге қалай дайындадық: Yandex Cloud-тағы Инфрақұрылым туралы, ол көрінбейді, бірақ маңызды

Виктория Унгурян Там. 11, 2025

🤖 Жасанды интеллект: ақылды көмекші ме, әлде білімнің болашағына шақыру ма?

ЕРЛАН АБДРАИМОВ Там. 1, 2025

2025 жылы ең көп сұранысқа ие бағдарламалау тілдері

Кирилл Коваленко Шілде 15, 2025

📘 ХХІ ғасырдағы білім: біз неге үйренеміз және ол қалай өзгереді

ЕРЛАН АБДРАИМОВ Там. 1, 2025

От REINFORCE к GRPO: Эволюция политики оптимизации обучения с подкреплением

REINFORCE - тен GRPO - ға дейін: күшейтілген оқытуды оңтайландыру саясатының эволюциясы

Денис Вылегжанин Наурыз 20, 2025 21:59

Пікірлер 0

Анна Бузулуцкая · Сәуір 7, 2025 15:45

Олег Яблонский · Сәуір 3, 2025 16:36

Олег Яблонский · Сәуір 3, 2025 16:36

Kuandyk Sadykov · Наурыз 31, 2025 23:22

Бибигуль Кандарбекова · Наурыз 31, 2025 11:41

Max Leman · Наурыз 29, 2025 22:43

Kuandyk Sadykov · Наурыз 25, 2025 04:34

Еламан Армия · Наурыз 25, 2025 01:02

Ainur Shamkelova · Наурыз 24, 2025 09:33

Виктория Унгурян
Там. 11, 2025

ЕРЛАН АБДРАИМОВ
Там. 1, 2025

Кирилл Коваленко
Шілде 15, 2025

ЕРЛАН АБДРАИМОВ
Там. 1, 2025

Денис Вылегжанин
Наурыз 20, 2025 21:59