Специалисты Sustainable Innovation and Technology Foundation продолжают работать над KazLLM

В июне 2024 года группа специалистов Sustainable Innovation and Technology Foundation работала над реализацией проекта по разработке казахской языковой модели. Так, была проведена серия экспериментов по обучению LLM, в ходе которых на текстах на казахском языке был натренирован токенизатор со словарем в десятки тысяч токенов. Кроме того, модель OLMo обучается на токенах текстов на казахском языке.

В целях улучшения модели нейронного машинного перевода был пополнен набор данных параллельного корпуса, содержащего тексты на казахском и других языках. На основе этих данных проводится дальнейшее обучение модели нейронного машинного перевода. Сотрудники проекта также интегрировали набор данных в базовую речевую модель, способную одновременно выполнять задачу текстового машинного перевода, чтобы улучшить результаты модели.

Другая часть группы работала над визуализацией виртуальных аватаров и создает прототип аватара, который мог бы рассказывать материал лекции на казахском языке.

Реализация работ стала возможной при частичной поддержке AstanaHub.

Комментарии 1

Авторизуйтесь чтобы оставить комментарий