Бұл жазба автоматты түрде аударылған. Бастапқы тіл: Ағылшын
Арматуралық оқыту (RL) үлкен тілдік модельдерді (LLM) өзгертеді, бұл олардың тілді қарапайым түсінуден сұхбаттасушы, энциклопедиялық көмекші және ойлау сарапшысы рөлдеріне ауысуына мүмкіндік береді. Бала мектеп арқылы ойлауды және әлеммен өзара әрекеттесуді үйренетіні сияқты, RL LLM үшін "мектеп" ретінде қызмет етеді, олардың шешім қабылдау және есеп беру дағдыларын итеративті кері байланыс арқылы жетілдіреді.
RL LLM үш негізгі рөлін алға тартады:
- Әңгімелесуші: динамикалық, контексттік-білімді диалог.
- Көмекші: дәл, энциклопедиялық кеңестер.
- Пайымдау бойынша сарапшы: дедукция, абдукция және индукция арқылы күрделі мәселелерді шешу.
RL эволюциясы туралы көбірек білу үшін менің алдыңғы жазбамды қараңыз: REINFORCE to GRPO: evolution of policy optimization in Reinforcement Learning.
LLM-де пайымдауды жақсарту үшін RL қандай дамитынын көрсететін соңғы екі мысалды қарастырайық.
RL-дің соңғы жетістіктері
Абсолютті нөл: деректерсіз өзін-өзі оқыту
Дереккөз: абсолютті нөл: нөлдік деректермен қайта құрылған Өзін-өзі ойнату
AZR жалпы идеясы
AZR (Absolute Zero Reasoner) — LLM-ге адам жасаған деректерсіз пайымдауды жақсартуға мүмкіндік беретін жаңа RL құрылымы.
- Сыртқы деректерсіз: автогенерацияланатын код тапсырмаларында оқыту.
- Код орта ретінде: тапсырмаларды тексеру үшін Python орындалуын пайдаланады.
- Үш ойлау режимі: Дедукция, абдукция, индукция.
- Өзін-өзі дамыту курсы: күрделілігі бойынша теңдестірілген тапсырмаларды тудырады.
- Қос рөлдер: бір LLM ұсынушы рөлдерін ауыстырады (тапсырмалар жасайды, оқу қабілеті үшін марапатталады) және шешуші (тапсырмаларды шешеді, дәлдігі үшін марапатталады).Бұл тәсіл ойлаудың автономды жақсаруын қамтамасыз етеді.
MiniMax-M1: CISPO-мен пайымдау
Дереккөз: MiniMax-M1: масштабтау сынағы-уақытты есептеу найзағай Аттенциясымен тиімді
Minimax-M1 ашық коды бар Модель жетекші LLM-мен салыстыруға болады, бірақ CISPO (Clipped Importance Sampling Policy Optimization) сияқты RL инновацияларының арқасында арзанырақ.CISPO туралы не жаңалық бар:
- Клипинг: сирек, бірақ мағыналы таңбалауыштарды тастайтын GRPO-дан айырмашылығы (мысалы, екі рет тексеру), CISPO оқу сигналын сақтай отырып, маңыздылық салмағын шектейді.
- Жылдам оқыту: grpo жылдамдығынан 50% қадаммен DAPO өнімділігіне қол жеткізеді.
- Тұрақтылық: тұрақсыздықсыз саясаттан тыс 16 жаңартуды қолдайды, тиімділікті арттырады.
- KL айыппұлын орнатпай: CISPO kl дивергенциясының салмағын алу қажеттілігін жояды, оқуды жеңілдетеді, бірақ шектеулі іріктеу арқылы тұрақтылықты сақтайды.
Қорытынды
RL-LLM-де ойлауды дамытудың негізі, бұл модельдерге зерттеушілер мен мамандар сияқты ойлауға мүмкіндік береді. Бала тәжірибе арқылы сыни ойлауды қалай меңгереді, LLM күрделі мәселелерді шешу үшін RL пайдаланады. Сияқты инновациялармен AZR және CISPO RL дамуын жалғастыруда, бұл LLM-ге ғылыми жаңалықтар мен шығармашылық мәселелерді шешу сияқты күрделі мәселелерді шешуге жол ашады.
Reinforcement Learning (RL) is transforming large language models (LLMs) beyond basic language understanding, enabling them to evolve into sophisticated conversationalists, knowledgeable assistants, and reasoning experts. Just as a child learns to reason through school and real-world interactions, RL acts as a "school" for LLMs, refining their decision-making and problem-solving skills through iterative feedback.
RL drives progress in three key LLM roles:
- Conversationalist: Engaging in dynamic, context-aware dialogue.
- Knowledgeable Assistant: Providing accurate, encyclopedic advice.
- Reasoning Expert: Solving complex problems through logical deduction, abduction, and induction.
For a deeper look at RL’s evolution, see my previous post on policy optimization: From REINFORCE to GRPO: Evolution of Policy Optimization in Reinforcement Learning
Let’s explore two recent breakthroughs that showcase how RL is being developed to improve reasoning in LLM.
RL’s Cutting-Edge Advances
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Source: Absolute Zero: Reinforced Self-play Reasoning with Zero Data
General Idea of AZR
AZR (Absolute Zero Reasoner) is a novel RL framework enabling LLMs to enhance reasoning without human-curated data.
- Zero External Data: Trains on self-generated code-based tasks.
- Code as Environment: Uses Python execution for reliable task validation.
- Three Reasoning Modes: Deduction, abduction, induction.
- Self-Evolving Curriculum: Proposes learnable, balanced tasks.
- Dual Roles: A single LLM alternates as Proposer (generates tasks, rewarded for learnability) and Solver (solves tasks, rewarded for accuracy). This self-play approach drives autonomous reasoning improvement.
MiniMax-M1: CISPO-Powered Reasoning
Source: MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
The open-source MiniMax-M1 model rivals top LLMs in reasoning while being cost-efficient, thanks to RL innovations like CISPO (Clipped Importance Sampling Policy Optimization).
What’s New in CISPO:
- Clipping: Unlike GRPO, which may discard rare but meaningful tokens (e.g., However, Recheck), CISPO clips importance weights, preserving learning signals for better reasoning.
- Faster Learning: Matches DAPO’s performance with 50% fewer training steps, outperforming GRPO in reward learning speed.
- Stable Off-Policy Updates: Supports up to 16 off-policy updates without instability, enabling efficient data reuse.
- No KL Penalty Tuning: CISPO eliminates the need to tune the weight of the KL divergence penalty, simplifying training while maintaining stability through clipped importance sampling.
Conclusion
RL is the backbone of LLM reasoning, pushing models to think like researchers and specialists. Like a child mastering critical thinking through experience, LLMs leverage RL to navigate complex tasks. With innovations like AZR and CISPO, RL continues to evolve, paving the way for LLMs to tackle advanced challenges like scientific discovery and creative problem-solving in the future.