KazLLM жобасы бойынша 2024 жылғы жұмыс нәтижелері

2024 жылдың мамыры мен қарашасы аралығында SITF мамандар тобы 70В өлшемді үлкен тіл үлгісін оқытты. Модель қазіргі уақытта оның жұмысын жақсарту үшін нұсқаулық деректер жиынын пайдалануға бағытталған бақыланатын дәл реттеу режимінде соңғы қосымша оқудан өтуде. Бұл процесс модельдің дәлдігін ғана емес, сонымен қатар оның жоғары сапалы тілді түсіну қабілетін қамтамасыз ету үшін лингвистер тобының деректерді мұқият талдауымен сандық көрсеткіштерді біріктіреді. Қорытынды оқу корпусына қазақ, орыс, ағылшын және түрік тілдеріндегі 150 миллиард токен кіреді, оның 7,5 миллиарды нақты баптау үшін арнайы бейімделген.

Модельді бағалау және нақтылау үшін команда AI2 Reasoning Challenge, Grade School Math Accounts, HandeSella, Massive Multitask Understanding Language, Winogrande, HumanEval және Параграфтар бойынша дискретті ойлау сияқты ауқымды өлшемдер жинағын пайдаланады. Көптеген оқу деректері Chat GPT 4o машиналық аудармасы арқылы аударылды. Нәтижелер Kaz-LLM қазақ тіліндегі ашық бастапқы код үлгілерінен айтарлықтай асып түсетінін және OpenAI шешімдерінің өнімділігіне жақындай отырып, орыс және ағылшын тілдерінде шамалы артықшылық көрсеткенін көрсетті.

Сөйлеуді аудару жобасында іргелі сөйлеу үлгісі Google Translate, Yandex Translate және GPT-4o сияқты құралдарды басып озып, тамаша нәтижелер көрсетті. FLoRes эталонында модель қазақ, орыс, ағылшын және түрік тілдеріндегі аудармаларда жоғары дәлдікті көрсетіп, тамаша BLEU ұпайларына қол жеткізді. Бұл табыстар олардың жаһандық бәсекеге қабілеттілігін қамтамасыз ететін машиналық аударма мен сөйлеуді өңдеу технологияларын дамытудағы елеулі прогресті көрсетеді.

KazLLM дамыту жобасы аясындағы бұл жұмыс AstanaHub ішінара қолдауымен мүмкін болды.

Пікірлер 7

Кіру пікір қалдыру үшін

тағы 1 ұпай

Жауап беру

қызық тілі ішіне кіргені ұнады

Жауап беру

керемет нәтиже, бастысы қолдау

Жауап беру

👍🏻👍🏻👍🏻

Жауап беру

отлично!

Жауап беру

интересно где разработчики намерены применять эту ЛЛМ

Жауап беру

🔥👏

Жауап беру