Автоматты аударма пайдаланылды

REINFORCE - тен GRPO - ға дейін: күшейтілген оқытуды оңтайландыру саясатының эволюциясы

Арматуралық оқыту (RL) - бұл агент қоршаған ортамен өзара әрекеттесу, іс-әрекеттерді таңдау, сыйақы алу және уақыт өте келе жинақталған сыйақыны барынша арттыруға ұмтылу арқылы шешім қабылдауға Үйренетін жүйе. Негізгі компоненттерге агент, қоршаған орта, әрекеттер және сыйақылар кіреді. Мақсат — оңтайлы саясатты табу-ұзақ мерзімді сыйақыны барынша арттыратын әрекеттерді таңдау стратегиясы. Іс-әрекеттің құндылығын бағалауға негізделген әдістерден айырмашылығы, саясатты оңтайландыру әдістері күтілетін сыйақыны барынша арттыру үшін саясат параметрлерін тікелей реттейді. RL негіздерімен тереңірек танысу үшін кітапты қараңыз Sutton және Barto ' s Reinforcement Learning: An Introduction.   

1. REINFORSE: градиент пионері

1992 жылы Рональд Дж. Уильямс ұсынған REINFORCE градиент саясатының алғашқы әдістерінің бірі болып табылады. Ол Монте-Карло әдістерін қолдана отырып, таңдамалы эпизодтар негізінде есептелген күтілетін сыйақы градиентіне сәйкес саясатты түзетеді. Қарапайым және интуитивті, REINFORCE шулы үлгілерге байланысты градиент ұпайларында жоғары дисперсиядан зардап шегеді, бұл тұрақсыз және баяу оқуға әкеледі, әсіресе қиын тапсырмаларда. Reinforcement Learning: An Introduction саясатының градиенттерін практикалық түсіндіру.   

2. TRPO: шектеулер арқылы тұрақтылық

2015 жылы Шульман және оның авторлары әзірлеген Trust Region Policy Optimization (TRPO) "сенім аймағында"KL дивергенциясы арқылы саясатты жаңартуды шектеу арқылы тұрақсыздықты жояды. Бұл монотонды жақсартуды қамтамасыз етеді және тұрақтылықты арттырады, бұл оны күрделі орталар үшін тиімді етеді. Алайда, оның есептеу күрделілігі-екінші ретті жуықтауларға байланысты-оны үлкен модельдер үшін практикалық емес етеді. Толық ақпарат OpenAI ' s Spinning Up guide on TRPO сайтында қолжетімді.   

3. PPO: қарапайымдылық және тиімділік

2017 жылы енгізілген Proximal Policy Optimization (PPO) саясаттың өзгеруін шектеу үшін жеңілдетілген суррогат мақсатымен TRPO тұрақтылық механизмдерін жеңілдетеді. PPO іске асыру оңай, есептеу тиімді және бірқатар тапсырмаларды жақсы орындайды. Дегенмен, оның қарапайымдылығы кейде күрделі сценарийлерде тұрақсыздыққа әкелуі мүмкін. Оның механикасын OpenAI ' s Spinning Up guide on PPO-да тексеріңіз.  

4. GRPO: үлкен тілдік модельдерге арналған

DeepSeekMath-тің 2024 жылғы мақаласында ұсынылған Group Relative Policy Optimization (GRPO) PPO-ны үлкен тілдік модельдерді (LLM) дәл баптауға бейімдейді. GRPO ұқсас есептерді (мысалы, математикалық есептер) топтастыру үшін деректерді топтастыруды енгізеді және дәл және тұрақты жаңартуларды алу үшін осы топтардағы салыстырмалы артықшылықтарды есептейді. Ол жадты пайдалануды оңтайландыру үшін Value функциясын жояды, бұл миллиардтаған параметрлері бар модельдер үшін өте маңызды, бұл дисперсияны арттырады, артықшылықтарды бағалауды шулы етеді. GRPO мұны деректерді топтастыру және сыйақыны қалыпқа келтіру сияқты әдістер арқылы жояды. 

5. Неліктен LLM үшін GRPO?

Үлкен тілдік модельдерді (LLM) дәл баптау үлкен есептеу ресурстарын басқару үшін алдын-ала дайындалған білім мен тиімділікті сақтау үшін тұрақтылықты қажет етеді. PPO кеңінен қолданылғанымен, оның біркелкі жаңартулары және мәндер функциясына тәуелділігі LLM үшін тиімсіз болуы мүмкін. Grpo деректерін топтастыру деректерді мақсатты түрде жаңартуға мүмкіндік береді, ал жадты оңтайландыру жаппай модельдерге сәйкес келеді. Алайда, мәндер функциясының жойылуына байланысты дисперсияның жоғарылауы Мұқият тұрақтандыру әдістерін қажет етеді. 

Қорытындылар

REINFORCE тен GRPO ға көшу rl дің өсіп келе жатқан күрделілікке бейімделуін көрсетеді: 

  • REINFORCE: қарапайым, бірақ жоғары дисперсиямен. 
  • TRPO: тұрақты, бірақ көп есептеу шығындарын қажет етеді. 
  • PPO: мінсіз болмаса да, тиімді және жан-жақты. 
  • GRPO: деректерді топтастыруға және жадты оңтайландыруға мүмкіндік беретін, бірақ мұқият орнатуды қажет ететін LLM үшін мамандандырылған. 

Әр әдіс өзінен бұрынғыларға тән нақты шектеулерді ескеріп, сонымен бірге жаңа компаға келуді ұсынды, ал GRPO мамандандырылған салаларда LLM-ді дәл баптаудың жеке шешімі болды. Бұл эволюция RL-дің тапсырмалар өскен сайын қарапайымдылық, тұрақтылық және масштабталу арасындағы тепе-теңдікке деген тұрақты ұмтылысын көрсетеді. 

Пікірлер 4

Кіру пікір қалдыру үшін

очень специфичный материал!

Жауап беру