Специалисты Sustainable Innovation and Technology Foundation продолжают работать над KazLLM
В июне 2024 года группа специалистов Sustainable Innovation and Technology Foundation работала над реализацией проекта по разработке казахской языковой модели. Так, была проведена серия экспериментов по обучению LLM, в ходе которых на текстах на казахском языке был натренирован токенизатор со словарем в десятки тысяч токенов. Кроме того, модель OLMo обучается на токенах текстов на казахском языке.
В целях улучшения модели нейронного машинного перевода был пополнен набор данных параллельного корпуса, содержащего тексты на казахском и других языках. На основе этих данных проводится дальнейшее обучение модели нейронного машинного перевода. Сотрудники проекта также интегрировали набор данных в базовую речевую модель, способную одновременно выполнять задачу текстового машинного перевода, чтобы улучшить результаты модели.
Другая часть группы работала над визуализацией виртуальных аватаров и создает прототип аватара, который мог бы рассказывать материал лекции на казахском языке.
Реализация работ стала возможной при частичной поддержке AstanaHub.
Comments 1
Login to leave a comment
Nursultan Kabenov · Sept. 12, 2024 01:10
👍