The post has been translated automatically. Original language: Russian
Between May and November 2024, the SITF team trained a large-scale language model of size 70B, completing key stages of training. The model is currently undergoing final supervised fine-tuning, which focuses on using instructional datasets to improve its performance. This process combines quantitative metrics with rigorous data analysis by a team of linguists, ensuring not only the accuracy of the model but also its ability to understand language well. The final training corpus includes 150 billion tokens in Kazakh, Russian, English, and Turkish, of which 7.5 billion are specifically adapted for fine-tuning. To evaluate and refine the model, the team uses a wide range of benchmarks, such as AI2 Reasoning Challenge, Grade School Math Problems, HandeSella, Massive Multitask Understanding Language, Winogrande, HumanEval, and Discrete Reasoning Over Paragraphs. The training dataset was translated using Chat GPT 4o machine translation. The results showed that Kaz-LLM significantly outperforms open-source models in Kazakh and shows a slight advantage in Russian and English, approaching OpenAI's performance.
In the speech translation project, the fundamental speech model demonstrated outstanding results, outperforming tools such as Google Translate, Yandex Translate, and GPT-4o. On the FLoRes benchmark, the model achieved excellent BLEU scores, demonstrating high accuracy in translations between Kazakh, Russian, English, and Turkish. These successes highlight the significant progress in the development of machine translation and speech processing technologies, ensuring their competitiveness on a global level.
This work on the KazLLM development project was made possible with the partial support of AstanaHub.
В период с мая по ноябрь 2024 года команда SITF провела обучение крупной языковой модели размером 70B, завершив ключевые этапы тренировки. В настоящий момент модель проходит заключительное дообучение в режиме supervised fine-tuning, ориентированное на использование инструкционных датасетов для повышения ее производительности. Этот процесс объединяет количественные метрики с тщательным анализом данных командой лингвистов, что обеспечивает не только точность модели, но и её способность к качественному языковому пониманию. Итоговый тренировочный корпус включает 150 миллиардов токенов на казахском, русском, английском и турецком языках, из которых 7,5 миллиардов специально адаптированы для fine-tuning.
Для оценки и доработки модели команда применяет обширный набор бенчмарков, таких как AI2 Reasoning Challenge, Grade School Math Problems, HandeSella, Massive Multitask Understanding Language, Winogrande, HumanEval и Discrete Reasoning Over Paragraphs. Множество данных для тренировок было переведено с помощью машинного перевода Chat GPT 4o. Результаты показали, что Kaz-LLM значительно превосходит модели с открытым исходным кодом на казахском языке и демонстрирует небольшое преимущество на русском и английском, приближаясь по производительности к решениям OpenAI.
В рамках проекта по переводу речи фундаментальная речевая модель продемонстрировала выдающиеся результаты, превзойдя такие инструменты, как Google Translate, Yandex Translate и GPT-4o. На бенчмарке FLoRes модель достигла превосходных оценок BLEU, показав высокую точность в переводах между казахским, русским, английским и турецким языками. Эти успехи подчеркивают значительный прогресс в развитии технологий машинного перевода и обработки речи, обеспечивая их конкурентоспособность на мировом уровне.
Данные работы в рамках проекта по развитию KazLLM стали возможными при частичной поддержке AstanaHub.