Автоматты аударма пайдаланылды

KAZ-LLM Мемлекет басшысына таныстырылды. Әзірлеуге Beeline Қазақстан және QazCode қатысты

11 желтоқсан Астанада Президентке Қазақстан Президенті Қасым-Жомарт Тоқаевқа ұлттық тілдік Kaz-LLM моделі. Модель әзірленді ақылды жүйелер және жасанды интеллект институты (ISSAI NU)басшылығымен Beeline Қазақстан және оның QazCode ат-компаниясымен, сондай-ақ Astana-мен серіктестікте Hub. Жобаны цифрлық даму, инновациялар және ҚР аэроғарыш өнеркәсібі (ҚР ЦДИАӨМ).  Модель бар бүкіл ел үшін стратегиялық маңызы бар, өйткені ол тіл мәселесін шешеді жасанды интеллект арқылы ажырасу.

Қалай Kaz-LLM моделі әзірленді ме?

ISSAI ұсынған KAZ-LLM 150 миллиард таңбалауышқа негізделген, төрт тілде жалпыға қол жетімді дереккөздерден мұқият жиналған-қазақ, орыс, ағылшын және түрік. Бұл модельге жоғары деңгей көрсетуге мүмкіндік береді мәтінді өңдеудің жақсартылған сапасын қамтамасыз ететін дәлдік пен әмбебаптық әр түрлі тілдерде және аударманы жақсартуға ықпал етеді. Таңбалауыштар деп аталады сөздер, олардың бөліктері немесе тіпті жеке сияқты мәтіннің минималды бірліктері ақпаратты талдау және түсіну үшін AI қолданатын таңбалар. 

Kaz-LLM моделінің интерфейсі мен функционалдығы ең озық әлемдік стандарттарды ескере отырып әзірленген, бұл растайды жоғары технологиялық жетілу және модельдің кең әлеуеті. Оны бағалау үшін өнімділік сұрақтарға жауап беретін кешенді эталондар қолданылды білімнің әртүрлі салаларын қамтитын жұптар. Эталондық пакетке мыналар кірді келесі сынақтар:

  • ARC (Ai2 Reasoning Challenge) — бірнеше таңдау сұрақтары арқылы ғылыми ойлауды тексеру.
  • Gsm8k-математика есептерін шешу қабілетін бағалау бастауыш мектеп үшін.
  • HellaSwag-сөйлемді жалғастыру логикасын сынау.
  • MMLU (Massive Multitask Language Understanding) - 57 түрлі пән бойынша білімді тексеру.
  • Winogrande-жалпы мағынаны екіұштылықпен бағалау ұсыныстар.
  • DROP-оқуды түсіну және логикалық ойлау дағдыларын сынау.

Beeline және QazCode серіктестігі жеделдеді әзірлеу

Оны құрудағы негізгі серіктестер Beeline Қазақстан және оның ат-компаниясы QazCode күш-жігер мен тәжірибені біріктіре отырып, Kaz-RoBERTA сияқты тілдік модельдерді жасау, сондай-ақ әзірлеуде Шет елдермен ынтымақтастықта шағын тілдік топтарға арналған АИ-шешімдер серіктестер. Берілген есептеу серверлері түріндегі қолдау 8 DGX H100 оқу процесін едәуір жеделдетіп кеңейтті модельдің мүмкіндіктері. Салыстыру үшін қарапайым компьютерге бірнеше қажет болады 1 миллион фотосуреттің мұрағатын талдауға күндер. Ал 8 ISSAI Kaz-LLM оқыту үшін пайдаланылатын DGX H100 серверлері мұны жеңе алады тапсырма бірнеше секундта.

Осы серверлерге негізделген әзірлеушілер модельдің екі нұсқасы оқытылды — 8 миллиард және 70 миллиард параметрлері бар, процеске qazcode Дата-сайентистері қосылды. 

"Біздің команда белсенді қатысты Kaz-LLM моделін әзірлеу және оқыту. LLM құру кезінде әзірлеушілер мен серіктестер pytorch және сияқты заманауи Машиналық оқыту технологияларын қолданды Torchtune, сондай-ақ алдыңғы open source бейімдеу жобаларының тәжірибесін қарастырды қазақ тіліне арналған LLM архитектурасы. 50-ге созылған оқу барысында үздіксіз есептеу күндері, модель контекстті түсіну қабілетін жақсартты және пайдаланушылармен өзара әрекеттесудің жоғары сапасын қамтамасыз ету. Тестілеу, бұл модель мәдени және тілдік мәселелерді ескере отырып, техникалық мәселелерді сәтті шешеді қазақ тілінің ерекшеліктері", - деп бөлісті СЕО Qazcode Алексей Шаравар.

Kaz-LLM нәтижелері мен перспективалары туралы

Зерттеушілер бұл жоба екенін атап өтті Қазақстанның әлемдік жасанды интеллект аренасындағы маңызды кезеңі: "бұл модель Қазақстанның инновацияға, тәуелсіздікке және өсуге деген ұмтылысын көрсетеді оның технологиялық экожүйесі. Біздің команда ISSAI екі нұсқасын дайындады Сәулет өнеріне негізделген 8 миллиард және 70 миллиард параметрлері бар KAZ-LLM Meta Llama және жоғары өнімді жүйелер мен орталар үшін оңтайландырылған ресурстары шектеулі. CC-BY-NC лицензиясы бойынша шығарылған модельдер Hugging Face веб-сайтында коммерциялық емес пайдалану үшін қол жетімді жаһандық академиялық және ғылыми ынтымақтастық. Осылайша әзірлеушілер біздің модельді күрделі серверлерде де жүктей және іске қоса алады және ноутбуктерде", - деді ISSAI директоры, nu профессоры Хусейн Атакан Варол. 

ISSAI Kaz-LLM жаңа мүмкіндіктер ашады деп күтілуде жасанды интеллект негізінде стартаптар мен инновациялық жобаларды құру.  Болашақта интеграцияланатын келесі буын модельдерін әзірлеу жоспарлануда тілдік және көрнекі деректер, бұл мүмкіндіктерді айтарлықтай кеңейтуге мүмкіндік береді АИ. Басқа түркі тілдерінің моделіне қолдау көрсету де қарастырылуда, бұл түркітілдес қауымдастықтар арасындағы байланысты нығайтуға мүмкіндік береді.

Пікірлер 1

Кіру пікір қалдыру үшін

KAZ-LLM — важный шаг для укрепления технологической независимости Казахстана. Совместная работа Beeline, QazCode и Astana Hub показывает силу партнерств в развитии ИИ!

Жауап беру