Результаты работы над проектом KazLLM в 2024 году

В период с мая по ноябрь 2024 года команда SITF провела обучение крупной языковой модели размером 70B, завершив ключевые этапы тренировки. В настоящий момент модель проходит заключительное дообучение в режиме supervised fine-tuning, ориентированное на использование инструкционных датасетов для повышения ее производительности. Этот процесс объединяет количественные метрики с тщательным анализом данных командой лингвистов, что обеспечивает не только точность модели, но и её способность к качественному языковому пониманию. Итоговый тренировочный корпус включает 150 миллиардов токенов на казахском, русском, английском и турецком языках, из которых 7,5 миллиардов специально адаптированы для fine-tuning.

Для оценки и доработки модели команда применяет обширный набор бенчмарков, таких как AI2 Reasoning Challenge, Grade School Math Problems, HandeSella, Massive Multitask Understanding Language, Winogrande, HumanEval и Discrete Reasoning Over Paragraphs. Множество данных для тренировок было переведено с помощью машинного перевода Chat GPT 4o. Результаты показали, что Kaz-LLM значительно превосходит модели с открытым исходным кодом на казахском языке и демонстрирует небольшое преимущество на русском и английском, приближаясь по производительности к решениям OpenAI.

В рамках проекта по переводу речи фундаментальная речевая модель продемонстрировала выдающиеся результаты, превзойдя такие инструменты, как Google Translate, Yandex Translate и GPT-4o. На бенчмарке FLoRes модель достигла превосходных оценок BLEU, показав высокую точность в переводах между казахским, русским, английским и турецким языками. Эти успехи подчеркивают значительный прогресс в развитии технологий машинного перевода и обработки речи, обеспечивая их конкурентоспособность на мировом уровне.

Данные работы в рамках проекта по развитию KazLLM стали возможными при частичной поддержке AstanaHub.

Комментарии 7

Авторизуйтесь чтобы оставить комментарий

тағы 1 ұпай

Ответить

қызық тілі ішіне кіргені ұнады

Ответить

керемет нәтиже, бастысы қолдау

Ответить

👍🏻👍🏻👍🏻

Ответить

отлично!

Ответить

интересно где разработчики намерены применять эту ЛЛМ

Ответить