
The post has been translated automatically. Original language: Russian Russian
In August 2024, specialists of the Sustainable Innovation and Technology Foundation replenished the data set to create a model that checks spelling in the Kazakh language. At the moment, the data set consists of more than 409 million tokens, which are included in the KazLLM training set, which will allow the model to improve the quality of answers in the Kazakh language. The language model was trained with 8 billion parameters, including primary additional training on the Kazakh language corpus and finetuning on a specialized dataset. The project specialists also implemented optimization and acceleration of the text generation process.
As part of the comparative analysis of models in English and Kazakh, a web interface was developed on the HuggingFace platform and the first comparative analysis of datasets in English and Kazakh was carried out, while the dataset in Kazakh was prepared using machine translation.
In terms of improving the neural machine translation model, the parallel corpus of the Kazakh language was expanded to 470 thousand lines in several languages, the demo version of the translation was improved, and new features were added to the web interface. In addition, the project team configured the SeamlessM4T model for simultaneous speech recognition and translation, and trained the vocoder for speech translation and speech synthesis tasks.
The implementation of work within the framework of the KazLLM development project became possible with the partial support of AstanaHub.
В августе 2024 года специалисты Sustainable Innovation and Technology Foundation пополняли массив данных для создания модели, проверяющей орфографию на казахском языке. На данный момент массив данных состоит из более чем 409 миллионов токенов, которые включены в обучающий набор KazLLM, что позволит модели улучшить качество ответов на казахском языке. Проведено обучение языковой модели с 8 миллиардами параметров, включающее первичное дообучение на корпусе казахского языка и улучшение на специализированном датасете. Специалисты проекта также реализовали оптимизацию и ускорение процесса генерации текста.
В рамках проведения сравнительного анализа моделей на английском и казахском языках разработан веб-интерфейс на платформе HuggingFace и проведен первый сравнительный анализ датасетов на английском и казахском языках, при этом датасет на казахском языке подготовлен с помощью машинного перевода.
В части улучшения модели нейронного машинного перевода параллельный корпус казахского языка был расширен до 470 тысяч строк на нескольких языках, была улучшена демо-версия перевода и добавлены новые возможности на веб-интерфейсе. Кроме того, команда проекта провела настройку модели SeamlessM4T для одновременного распознавания и перевода речи, а также обучила вокодер для задач перевода речи и синтеза речи.
Реализация работ в рамках проекта по развитию KazLLM стала возможной при частичной поддержке AstanaHub.