Автоматты аударма пайдаланылды

Тамыз айында KazLLM жобасы бойынша Sustainable Innovation and Technology Foundation мамандарының жұмысы

2024 жылдың тамызында Sustainable Innovation and Technology Foundation мамандары қазақ тіліндегі орфографияны тексеретін модель жасау үшін деректер жинағын толықтырды. Қазіргі уақытта деректер жинағы KazLLM оқу жинағына енгізілген 409 миллионнан астам токендерден тұрады, бұл модельге қазақ тіліндегі жауаптардың сапасын жақсартуға мүмкіндік береді. Қазақ тілінің корпусы бойынша бастапқы қосымша оқыту және мамандандырылған деректер жиынтығы негізінде жетілдіруден тұратын 8 миллиард параметрі бар тілдік модель оқытылды. Сондай-ақ жоба мамандары мәтінді құру процесін оңтайландырып, жылдамдатқан.

Ағылшын және қазақ тілдеріндегі модельдерді салыстырмалы талдау шеңберінде HuggingFace платформасында веб-интерфейс әзірленді және ағылшын және қазақ тілдеріндегі деректер жиынына алғашқы салыстырмалы талдау жүргізілді. Қазақ тіліндегі деректер жинағы машиналық аударма арқылы дайындалды.

Нейрондық машиналық аударма моделін жетілдіру тұрғысынан қазақ тілінің параллель корпусы бірнеше тілде 470 мың жолға дейін кеңейтілді, аударманың демо-нұсқасы жетілдіріліп, веб-интерфейске жаңа мүмкіндіктер қосылды. Сонымен қатар, жоба командасы бір мезгілде сөйлеуді тану және аудару үшін SeamlessM4T үлгісін конфигурациялады, сонымен қатар сөзді аудару және сөйлеу синтезі тапсырмалары үшін дауыс кодерді оқытты.

KazLLM дамыту жобасы аясындағы жұмыстарды іске асыру AstanaHub-тың ішінара қолдауымен мүмкін болды.

Пікірлер 3

Кіру пікір қалдыру үшін

🔥🔥🔥

Жауап беру

Отличные новости!

Жауап беру