Sustainable Innovation and Technology Foundation мамандары KazLLM бойынша жұмысын жалғастыруда

Бұл жазба автоматты түрде аударылған. Бастапқы тіл: Ағылшын

Bakyt Ospanova

Басқа

28 Мау 2024

2024 жылғы маусымда Sustainable Innovation and Technology Foundation мамандар тобы қазақ тілінің моделін әзірлеу жөніндегі жобаны іске асыру бойынша жұмыс жасады. Мәселен, LLM оқыту бойынша бірқатар эксперименттер жүргізілді, оның барысында қазақ тіліндегі мәтіндерде мыңдаған токен сөздігі бар токенизатор оқытылды. Сонымен қатар, OLMo моделі қазақ тіліндегі мәтіндердің таңбалауыштарында оқытылады.

Нейрондық машиналық аударма моделін жақсарту мақсатында қазақ және басқа тілдердегі мәтіндерден тұратын параллель корпустың деректер жиынтығы толықтырылды. Осы мәліметтер негізінде нейрондық машиналық аударма моделін одан әрі оқыту жүргізіледі. Жоба қызметкерлері сонымен қатар модель нәтижелерін жақсарту үшін мәтіндік машиналық аударма тапсырмасын бір уақытта орындай алатын негізгі сөйлеу моделіне мәліметтер жиынтығын біріктірді.

Топтың тағы бір бөлігі виртуалды аватарларды визуализациялау бойынша жұмыс істеді және дәріс материалын қазақ тілінде баяндай алатын аватардың прототипін жасады.

Аталмыш жұмыстар AstanaHub ішінара қолдауымен жүзеге асырылды.