Работа специалистов Sustainable Innovation and Technology Foundation по проекту KazLLM в августе

В августе 2024 года специалисты Sustainable Innovation and Technology Foundation пополняли массив данных для создания модели, проверяющей орфографию на казахском языке. На данный момент массив данных состоит из более чем 409 миллионов токенов, которые включены в обучающий набор KazLLM, что позволит модели улучшить качество ответов на казахском языке. Проведено обучение языковой модели с 8 миллиардами параметров, включающее первичное дообучение на корпусе казахского языка и улучшение на специализированном датасете. Специалисты проекта также реализовали оптимизацию и ускорение процесса генерации текста.

В рамках проведения сравнительного анализа моделей на английском и казахском языках разработан веб-интерфейс на платформе HuggingFace и проведен первый сравнительный анализ датасетов на английском и казахском языках, при этом датасет на казахском языке подготовлен с помощью машинного перевода.

В части улучшения модели нейронного машинного перевода параллельный корпус казахского языка был расширен до 470 тысяч строк на нескольких языках, была улучшена демо-версия перевода и добавлены новые возможности на веб-интерфейсе. Кроме того, команда проекта провела настройку модели SeamlessM4T для одновременного распознавания и перевода речи, а также обучила вокодер для задач перевода речи и синтеза речи.

Реализация работ в рамках проекта по развитию KazLLM стала возможной при частичной поддержке AstanaHub.

Комментарии 3

Авторизуйтесь чтобы оставить комментарий

🔥🔥🔥

Ответить

Отличные новости!

Ответить