Публикация была переведена автоматически. Исходный язык: Английский
В мае 2024 года группа специалистов Sustainable Innovation and Technology Foundation, реализующих проект по поддержке развития моделей искусственного интеллекта, работала над разработкой казахской языковой модели (KazLLM). В частности, изучались и тестировались инструменты по сбору данных с веб-сайтов, проведен сбор текстов с 25 веб-сайтов, таких как silkway.kz, massaget.kz, egemen.kz kaz.inform.kz, akorda.kz, tengrinews.kz, zakon.kz, qazaqadebieti.kz, adebiportal.kz, baq.kz, anatili.kazgazeta.kz, aigak.kz, el.kz, okg.kz, kk.wikipedia.org, primeminister.kz, nationalgeographic.kz, adilet.zan.kz, qazaqtimes.com на казахском, русском и английском языках для обучения казахской языковой модели (KazLLM). Кроме того, были запущены скрипты по сбору текста, планируется дальнейшая оценка количества токенов после завершения процесса.
В результате работы, проделанной специалистами в мае 2024 года, было получено около 800 млн. слов (включая числа) на казахском языке. Планируется дальнейшая оценка числа токенов с помощью казахского токейнайзера.
Кроме того, сотрудник Sustainable Innovation and Technology Foundation Жанат Махатаева выступала с докладами на 2 конференциях в мае 2024 года. Она представила доклад «Дополненная реальность для когнитивных заболеваний» на конференции «Med Innovations Forum within the framework of the 29th Kazakhstan International Exhibition "Healthcare" - KIHE 2024», которая прошла с 15 по 17 мая в г. Алматы. А на конференции «Effective Integration of Artificial Intelligence and Edtech Digital Technologies in Education, Language Teaching and Scientific Research» в г. Астана Ж. Махатаева выступила с докладом «Аватары и дополненная реальность в образовании».
Следует отметить, что проект по поддержке развития моделей искусственного интеллекта реализуется при поддержке Astana Hub.
In May 2024, a group of Sustainable Innovation and Technology Foundation specialists, implementing a project to support the development of artificial intelligence models, worked on the development of the Kazakh language model (KazLLM). In particular, tools for collecting data from websites were studied and tested, texts were collected from 25 websites, such as silkway.kz, massaget.kz, egemen.kz, kaz.inform.kz, akorda.kz, tengrinews.kz, zakon.kz, qazaqadebieti.kz, adebiportal.kz, baq.kz, anatili.kazgazeta.kz, aigak.kz, el.kz, okg.kz, kk.wikipedia.org, primeminister.kz, nationalgeographic.kz, adilet.zan.kz, qazaqtimes.com in Kazakh, Russian and English for teaching the Kazakh language model (KazLLM). In addition, text collection scripts have been launched , and further evaluation of the number of tokens is planned after the completion of the process.
As a result of the work completed by specialists in May 2024, about 800 million words (including numbers) in the Kazakh language were obtained. It is planned to further estimate the number of tokens using the Kazakh tokenizer.
In addition, Zhanat Makhatayeva, an employee of the Sustainable Innovation and Technology Foundation, made presentations at 2 conferences in May 2024. She presented the report "Augmented Reality for Cognitive Impairments" at the conference "Med Innovations Forum within the framework of the 29th Kazakhstan International Exhibition "Healthcare" - KIHE 2024", which was held from May 15 to 17 in Almaty. And at the conference "Effective Integration of Artificial Intelligence and Edtech Digital Technologies in Education, Language Teaching and Scientific Research" in Astana, Zh. Makhatayeva made a presentation "Avatars and Mixed Reality in Education".
The project to support the development of artificial intelligence models is being implemented with the support of Astana Hub.