Результаты работы над проектом KazLLM в 2024 году
В период с мая по ноябрь 2024 года команда SITF провела обучение крупной языковой модели размером 70B, завершив ключевые этапы тренировки. В настоящий момент модель проходит заключительное дообучение в режиме supervised fine-tuning, ориентированное на использование инструкционных датасетов для повышения ее производительности. Этот процесс объединяет количественные метрики с тщательным анализом данных командой лингвистов, что обеспечивает не только точность модели, но и её способность к качественному языковому пониманию. Итоговый тренировочный корпус включает 150 миллиардов токенов на казахском, русском, английском и турецком языках, из которых 7,5 миллиардов специально адаптированы для fine-tuning.
Для оценки и доработки модели команда применяет обширный набор бенчмарков, таких как AI2 Reasoning Challenge, Grade School Math Problems, HandeSella, Massive Multitask Understanding Language, Winogrande, HumanEval и Discrete Reasoning Over Paragraphs. Множество данных для тренировок было переведено с помощью машинного перевода Chat GPT 4o. Результаты показали, что Kaz-LLM значительно превосходит модели с открытым исходным кодом на казахском языке и демонстрирует небольшое преимущество на русском и английском, приближаясь по производительности к решениям OpenAI.
В рамках проекта по переводу речи фундаментальная речевая модель продемонстрировала выдающиеся результаты, превзойдя такие инструменты, как Google Translate, Yandex Translate и GPT-4o. На бенчмарке FLoRes модель достигла превосходных оценок BLEU, показав высокую точность в переводах между казахским, русским, английским и турецким языками. Эти успехи подчеркивают значительный прогресс в развитии технологий машинного перевода и обработки речи, обеспечивая их конкурентоспособность на мировом уровне.
Данные работы в рамках проекта по развитию KazLLM стали возможными при частичной поддержке AstanaHub.
Комментарии 7
Авторизуйтесь чтобы оставить комментарий
Ai Nur · Дек. 13, 2024 14:35
тағы 1 ұпай
Ai Nur · Дек. 13, 2024 14:35
қызық тілі ішіне кіргені ұнады
Ai Nur · Дек. 10, 2024 21:06
керемет нәтиже, бастысы қолдау
Balzhan I · Дек. 9, 2024 23:40
👍🏻👍🏻👍🏻
Balzhan I · Дек. 9, 2024 23:38
отлично!
Dauren Bazilov · Дек. 6, 2024 09:43
интересно где разработчики намерены применять эту ЛЛМ
Ilias Zholaman · Дек. 5, 2024 21:43
🔥👏