KazLLM жобасы бойынша 2024 жылғы жұмыс нәтижелері
2024 жылдың мамыры мен қарашасы аралығында SITF мамандар тобы 70В өлшемді үлкен тіл үлгісін оқытты. Модель қазіргі уақытта оның жұмысын жақсарту үшін нұсқаулық деректер жиынын пайдалануға бағытталған бақыланатын дәл реттеу режимінде соңғы қосымша оқудан өтуде. Бұл процесс модельдің дәлдігін ғана емес, сонымен қатар оның жоғары сапалы тілді түсіну қабілетін қамтамасыз ету үшін лингвистер тобының деректерді мұқият талдауымен сандық көрсеткіштерді біріктіреді. Қорытынды оқу корпусына қазақ, орыс, ағылшын және түрік тілдеріндегі 150 миллиард токен кіреді, оның 7,5 миллиарды нақты баптау үшін арнайы бейімделген.
Модельді бағалау және нақтылау үшін команда AI2 Reasoning Challenge, Grade School Math Accounts, HandeSella, Massive Multitask Understanding Language, Winogrande, HumanEval және Параграфтар бойынша дискретті ойлау сияқты ауқымды өлшемдер жинағын пайдаланады. Көптеген оқу деректері Chat GPT 4o машиналық аудармасы арқылы аударылды. Нәтижелер Kaz-LLM қазақ тіліндегі ашық бастапқы код үлгілерінен айтарлықтай асып түсетінін және OpenAI шешімдерінің өнімділігіне жақындай отырып, орыс және ағылшын тілдерінде шамалы артықшылық көрсеткенін көрсетті.
Сөйлеуді аудару жобасында іргелі сөйлеу үлгісі Google Translate, Yandex Translate және GPT-4o сияқты құралдарды басып озып, тамаша нәтижелер көрсетті. FLoRes эталонында модель қазақ, орыс, ағылшын және түрік тілдеріндегі аудармаларда жоғары дәлдікті көрсетіп, тамаша BLEU ұпайларына қол жеткізді. Бұл табыстар олардың жаһандық бәсекеге қабілеттілігін қамтамасыз ететін машиналық аударма мен сөйлеуді өңдеу технологияларын дамытудағы елеулі прогресті көрсетеді.
KazLLM дамыту жобасы аясындағы бұл жұмыс AstanaHub ішінара қолдауымен мүмкін болды.
Пікірлер 7
Кіру пікір қалдыру үшін
Ai Nur · Жел. 13, 2024 14:35
тағы 1 ұпай
Ai Nur · Жел. 13, 2024 14:35
қызық тілі ішіне кіргені ұнады
Ai Nur · Жел. 10, 2024 21:06
керемет нәтиже, бастысы қолдау
Balzhan I · Жел. 9, 2024 23:40
👍🏻👍🏻👍🏻
Balzhan I · Жел. 9, 2024 23:38
отлично!
Dauren Bazilov · Жел. 6, 2024 09:43
интересно где разработчики намерены применять эту ЛЛМ
Ilias Zholaman · Жел. 5, 2024 21:43
🔥👏