Автоматты аударма пайдаланылды

Сөзден даналыққа: LLM-де пайымдауды дамытудағы RL рөлі

Арматуралық оқыту (RL) үлкен тілдік модельдерді (LLM) өзгертеді, бұл олардың тілді қарапайым түсінуден сұхбаттасушы, энциклопедиялық көмекші және ойлау сарапшысы рөлдеріне ауысуына мүмкіндік береді. Бала мектеп арқылы ойлауды және әлеммен өзара әрекеттесуді үйренетіні сияқты, RL LLM үшін "мектеп" ретінде қызмет етеді, олардың шешім қабылдау және есеп беру дағдыларын итеративті кері байланыс арқылы жетілдіреді.

RL LLM үш негізгі рөлін алға тартады:

  1. Әңгімелесуші: динамикалық, контексттік-білімді диалог.
  2. Көмекші: дәл, энциклопедиялық кеңестер.
  3. Пайымдау бойынша сарапшы: дедукция, абдукция және индукция арқылы күрделі мәселелерді шешу.

RL эволюциясы туралы көбірек білу үшін менің алдыңғы жазбамды қараңыз: REINFORCE to GRPO: evolution of policy optimization in Reinforcement Learning.

LLM-де пайымдауды жақсарту үшін RL қандай дамитынын көрсететін соңғы екі мысалды қарастырайық.

RL-дің соңғы жетістіктері

Абсолютті нөл: деректерсіз өзін-өзі оқыту

Дереккөз: абсолютті нөл: нөлдік деректермен қайта құрылған Өзін-өзі ойнату

AZR жалпы идеясы

AZR (Absolute Zero Reasoner) — LLM-ге адам жасаған деректерсіз пайымдауды жақсартуға мүмкіндік беретін жаңа RL құрылымы.

  • Сыртқы деректерсіз: автогенерацияланатын код тапсырмаларында оқыту.
  • Код орта ретінде: тапсырмаларды тексеру үшін Python орындалуын пайдаланады.
  • Үш ойлау режимі: Дедукция, абдукция, индукция.
  • Өзін-өзі дамыту курсы: күрделілігі бойынша теңдестірілген тапсырмаларды тудырады.
  • Қос рөлдер: бір LLM ұсынушы рөлдерін ауыстырады (тапсырмалар жасайды, оқу қабілеті үшін марапатталады) және шешуші (тапсырмаларды шешеді, дәлдігі үшін марапатталады).Бұл тәсіл ойлаудың автономды жақсаруын қамтамасыз етеді.

MiniMax-M1: CISPO-мен пайымдау

Дереккөз: MiniMax-M1: масштабтау сынағы-уақытты есептеу найзағай Аттенциясымен тиімді

Minimax-M1 ашық коды бар Модель жетекші LLM-мен салыстыруға болады, бірақ CISPO (Clipped Importance Sampling Policy Optimization) сияқты RL инновацияларының арқасында арзанырақ.CISPO туралы не жаңалық бар:

  • Клипинг: сирек, бірақ мағыналы таңбалауыштарды тастайтын GRPO-дан айырмашылығы (мысалы, екі рет тексеру), CISPO оқу сигналын сақтай отырып, маңыздылық салмағын шектейді.
  • Жылдам оқыту: grpo жылдамдығынан 50% қадаммен DAPO өнімділігіне қол жеткізеді.
  • Тұрақтылық: тұрақсыздықсыз саясаттан тыс 16 жаңартуды қолдайды, тиімділікті арттырады.
  • KL айыппұлын орнатпай: CISPO kl дивергенциясының салмағын алу қажеттілігін жояды, оқуды жеңілдетеді, бірақ шектеулі іріктеу арқылы тұрақтылықты сақтайды.

Қорытынды

RL-LLM-де ойлауды дамытудың негізі, бұл модельдерге зерттеушілер мен мамандар сияқты ойлауға мүмкіндік береді. Бала тәжірибе арқылы сыни ойлауды қалай меңгереді, LLM күрделі мәселелерді шешу үшін RL пайдаланады. Сияқты инновациялармен AZR және CISPO RL дамуын жалғастыруда, бұл LLM-ге ғылыми жаңалықтар мен шығармашылық мәселелерді шешу сияқты күрделі мәселелерді шешуге жол ашады.

Пікірлер 2

Кіру пікір қалдыру үшін

Интересное и понятное сравнение в ребенком) Спасибо!

Жауап беру

очень познавательно

Жауап беру