KazLLM жобасы бойынша 2024 жылғы жұмыс нәтижелері

2024 жылдың мамыры мен қарашасы аралығында SITF мамандар тобы 70В өлшемді үлкен тіл үлгісін оқытты. Модель қазіргі уақытта оның жұмысын жақсарту үшін нұсқаулық деректер жиынын пайдалануға бағытталған бақыланатын дәл реттеу режимінде соңғы қосымша оқудан өтуде. Бұл процесс модельдің дәлдігін ғана емес, сонымен қатар оның жоғары сапалы тілді түсіну қабілетін қамтамасыз ету үшін лингвистер тобының деректерді мұқият талдауымен сандық көрсеткіштерді біріктіреді. Қорытынды оқу корпусына қазақ, орыс, ағылшын және түрік тілдеріндегі 150 миллиард токен кіреді, оның 7,5 миллиарды нақты баптау үшін арнайы бейімделген.

Модельді бағалау және нақтылау үшін команда AI2 Reasoning Challenge, Grade School Math Accounts, HandeSella, Massive Multitask Understanding Language, Winogrande, HumanEval және Параграфтар бойынша дискретті ойлау сияқты ауқымды өлшемдер жинағын пайдаланады. Көптеген оқу деректері Chat GPT 4o машиналық аудармасы арқылы аударылды. Нәтижелер Kaz-LLM қазақ тіліндегі ашық бастапқы код үлгілерінен айтарлықтай асып түсетінін және OpenAI шешімдерінің өнімділігіне жақындай отырып, орыс және ағылшын тілдерінде шамалы артықшылық көрсеткенін көрсетті.

Сөйлеуді аудару жобасында іргелі сөйлеу үлгісі Google Translate, Yandex Translate және GPT-4o сияқты құралдарды басып озып, тамаша нәтижелер көрсетті. FLoRes эталонында модель қазақ, орыс, ағылшын және түрік тілдеріндегі аудармаларда жоғары дәлдікті көрсетіп, тамаша BLEU ұпайларына қол жеткізді. Бұл табыстар олардың жаһандық бәсекеге қабілеттілігін қамтамасыз ететін машиналық аударма мен сөйлеуді өңдеу технологияларын дамытудағы елеулі прогресті көрсетеді.

KazLLM дамыту жобасы аясындағы бұл жұмыс AstanaHub ішінара қолдауымен мүмкін болды.

1570

Bakyt Ospanova
Жел. 5, 2024 20:07

Пікірлер 8

Кіру пікір қалдыру үшін

История Очистить

Популярные посты

Astana Hub және nFactorial "Кремний алқабындағы қазақстандық стартаптар" деректі фильмін іске қосты

Kristina Rizvanova
Сәуір 4, 2025

Ақтөбелік жас және дарынды суретші Astana Hub-тың Tech Orda бағдарламасының көмегімен IT саласына қалай келді

SCHOOL1. KZ
Сәуір 9, 2025

Қызылордадағы GameDev: үлкен индустрияға алғашқы қадамдар

Антон Якушин
Сәуір 9, 2025

Қазақстандық IT кремний алқабынан жаман емес екендігінің 5 себебі

Ангелина Саратовкина
Сәуір 9, 2025

KazLLM жобасы бойынша 2024 жылғы жұмыс нәтижелері

Bakyt Ospanova
Жел. 5, 2024 20:07

Пікірлер 8

Laura Meir · Жел. 23, 2024 20:52

Ai Nur · Жел. 13, 2024 14:35

Ai Nur · Жел. 13, 2024 14:35

Ai Nur · Жел. 10, 2024 21:06

Balzhan I · Жел. 9, 2024 23:40

Balzhan I · Жел. 9, 2024 23:38

Dauren Bazilov · Жел. 6, 2024 09:43

Elias Zholaman · Жел. 5, 2024 21:43

Популярные посты

Astana Hub және nFactorial "Кремний алқабындағы қазақстандық стартаптар" деректі фильмін іске қосты

Kristina Rizvanova Сәуір 4, 2025

Ақтөбелік жас және дарынды суретші Astana Hub-тың Tech Orda бағдарламасының көмегімен IT саласына қалай келді

SCHOOL1. KZ Сәуір 9, 2025

Қызылордадағы GameDev: үлкен индустрияға алғашқы қадамдар

Антон Якушин Сәуір 9, 2025

Қазақстандық IT кремний алқабынан жаман емес екендігінің 5 себебі

Ангелина Саратовкина Сәуір 9, 2025

KazLLM жобасы бойынша 2024 жылғы жұмыс нәтижелері

Bakyt Ospanova Жел. 5, 2024 20:07

Пікірлер 8

Laura Meir · Жел. 23, 2024 20:52

Ai Nur · Жел. 13, 2024 14:35

Ai Nur · Жел. 13, 2024 14:35

Ai Nur · Жел. 10, 2024 21:06

Balzhan I · Жел. 9, 2024 23:40

Balzhan I · Жел. 9, 2024 23:38

Dauren Bazilov · Жел. 6, 2024 09:43

Elias Zholaman · Жел. 5, 2024 21:43

Kristina Rizvanova
Сәуір 4, 2025

SCHOOL1. KZ
Сәуір 9, 2025

Антон Якушин
Сәуір 9, 2025

Ангелина Саратовкина
Сәуір 9, 2025

Bakyt Ospanova
Жел. 5, 2024 20:07