Работа над KazLLM в июле: что успели сделать специалисты Sustainable Innovation and Technology Foundation

Работа над реализацией проекта по разработке казахской языковой модели KazLLM в июле 2024 года была сфокусирована на нескольких ключевых задачах.

Во-первых, специалисты Sustainable Innovation and Technology Foundation расширили датасет для казахской LLM с целью обучения модели исправлению орфографических ошибок на казахском языке.

Во-вторых, проводились работы по расширению набора данных параллельного корпуса казахского языка, что позволит обеспечить машинный перевод текстов на 4 языках: казахский, английский, русский и турецкий.

В-третьих, специалисты работали над значительным улучшением автоматического распознавания речи (ASR) для четырех указанных языков и над переводом в формате text-to-text.

В-четвертых, команда специалистов тестировала разные режимы виртуального аватара, который может проводить обучающие лекции на казахском языке, в том числе в режиме реального времени.

Реализация работ в рамках проекта по развитию KazLLM стала возможной при частичной поддержке AstanaHub.

Комментарии 1

Авторизуйтесь чтобы оставить комментарий