Бұл жазба автоматты түрде аударылған. Бастапқы тіл: Ағылшын
2024 жылғы маусымда Sustainable Innovation and Technology Foundation мамандар тобы қазақ тілінің моделін әзірлеу жөніндегі жобаны іске асыру бойынша жұмыс жасады. Мәселен, LLM оқыту бойынша бірқатар эксперименттер жүргізілді, оның барысында қазақ тіліндегі мәтіндерде мыңдаған токен сөздігі бар токенизатор оқытылды. Сонымен қатар, OLMo моделі қазақ тіліндегі мәтіндердің таңбалауыштарында оқытылады.
Нейрондық машиналық аударма моделін жақсарту мақсатында қазақ және басқа тілдердегі мәтіндерден тұратын параллель корпустың деректер жиынтығы толықтырылды. Осы мәліметтер негізінде нейрондық машиналық аударма моделін одан әрі оқыту жүргізіледі. Жоба қызметкерлері сонымен қатар модель нәтижелерін жақсарту үшін мәтіндік машиналық аударма тапсырмасын бір уақытта орындай алатын негізгі сөйлеу моделіне мәліметтер жиынтығын біріктірді.
Топтың тағы бір бөлігі виртуалды аватарларды визуализациялау бойынша жұмыс істеді және дәріс материалын қазақ тілінде баяндай алатын аватардың прототипін жасады.
Аталмыш жұмыстар AstanaHub ішінара қолдауымен жүзеге асырылды.
2024 жылғы маусымда Sustainable Innovation and Technology Foundation мамандар тобы қазақ тілінің моделін әзірлеу жөніндегі жобаны іске асыру бойынша жұмыс жасады. Мәселен, LLM оқыту бойынша бірқатар эксперименттер жүргізілді, оның барысында қазақ тіліндегі мәтіндерде мыңдаған токен сөздігі бар токенизатор оқытылды. Сонымен қатар, OLMo моделі қазақ тіліндегі мәтіндердің таңбалауыштарында оқытылады.
Нейрондық машиналық аударма моделін жақсарту мақсатында қазақ және басқа тілдердегі мәтіндерден тұратын параллель корпустың деректер жиынтығы толықтырылды. Осы мәліметтер негізінде нейрондық машиналық аударма моделін одан әрі оқыту жүргізіледі. Жоба қызметкерлері сонымен қатар модель нәтижелерін жақсарту үшін мәтіндік машиналық аударма тапсырмасын бір уақытта орындай алатын негізгі сөйлеу моделіне мәліметтер жиынтығын біріктірді.
Топтың тағы бір бөлігі виртуалды аватарларды визуализациялау бойынша жұмыс істеді және дәріс материалын қазақ тілінде баяндай алатын аватардың прототипін жасады.
Аталмыш жұмыстар AstanaHub ішінара қолдауымен жүзеге асырылды.
In June 2024, a group of Sustainable Innovation and Technology Foundation specialists worked on the implementation of a project to develop a Kazakh language model. So, a series of LLM training experiments was conducted, during which a tokenizer with a dictionary of tens of thousands of tokens was trained on texts in the Kazakh language. In addition, the OLMo model is trained on tokens of texts in the Kazakh language.
In order to improve the neural machine translation model, the data set of a parallel corpus containing texts in Kazakh and other languages was replenished. Based on these data, further training of the neural machine translation model is carried out. The project staff also integrated the dataset into a basic speech model capable of simultaneously performing a text machine translation task to improve the model's results.
Another part of the group worked on the visualization of virtual avatars and created a prototype avatar that could tell the lecture material in Kazakh.
This project's implementation became possible with the partial support of AstanaHub.