Работа специалистов Sustainable Innovation and Technology Foundation по проекту KazLLM в августе

В августе 2024 года специалисты Sustainable Innovation and Technology Foundation пополняли массив данных для создания модели, проверяющей орфографию на казахском языке. На данный момент массив данных состоит из более чем 409 миллионов токенов, которые включены в обучающий набор KazLLM, что позволит модели улучшить качество ответов на казахском языке. Проведено обучение языковой модели с 8 миллиардами параметров, включающее первичное дообучение на корпусе казахского языка и улучшение на специализированном датасете. Специалисты проекта также реализовали оптимизацию и ускорение процесса генерации текста.

В рамках проведения сравнительного анализа моделей на английском и казахском языках разработан веб-интерфейс на платформе HuggingFace и проведен первый сравнительный анализ датасетов на английском и казахском языках, при этом датасет на казахском языке подготовлен с помощью машинного перевода.

В части улучшения модели нейронного машинного перевода параллельный корпус казахского языка был расширен до 470 тысяч строк на нескольких языках, была улучшена демо-версия перевода и добавлены новые возможности на веб-интерфейсе. Кроме того, команда проекта провела настройку модели SeamlessM4T для одновременного распознавания и перевода речи, а также обучила вокодер для задач перевода речи и синтеза речи.

Реализация работ в рамках проекта по развитию KazLLM стала возможной при частичной поддержке AstanaHub.

Тамыз айында KazLLM жобасы бойынша Sustainable Innovation and Technology Foundation мамандарының жұмысы

2024 жылдың тамызында Sustainable Innovation and Technology Foundation мамандары қазақ тіліндегі орфографияны тексеретін модель жасау үшін деректер жинағын толықтырды. Қазіргі уақытта деректер жинағы KazLLM оқу жинағына енгізілген 409 миллионнан астам токендерден тұрады, бұл модельге қазақ тіліндегі жауаптардың сапасын жақсартуға мүмкіндік береді. Қазақ тілінің корпусы бойынша бастапқы қосымша оқыту және мамандандырылған деректер жиынтығы негізінде жетілдіруден тұратын 8 миллиард параметрі бар тілдік модель оқытылды. Сондай-ақ жоба мамандары мәтінді құру процесін оңтайландырып, жылдамдатқан.

Ағылшын және қазақ тілдеріндегі модельдерді салыстырмалы талдау шеңберінде HuggingFace платформасында веб-интерфейс әзірленді және ағылшын және қазақ тілдеріндегі деректер жиынына алғашқы салыстырмалы талдау жүргізілді. Қазақ тіліндегі деректер жинағы машиналық аударма арқылы дайындалды.

Нейрондық машиналық аударма моделін жетілдіру тұрғысынан қазақ тілінің параллель корпусы бірнеше тілде 470 мың жолға дейін кеңейтілді, аударманың демо-нұсқасы жетілдіріліп, веб-интерфейске жаңа мүмкіндіктер қосылды. Сонымен қатар, жоба командасы бір мезгілде сөйлеуді тану және аудару үшін SeamlessM4T үлгісін конфигурациялады, сонымен қатар сөзді аудару және сөйлеу синтезі тапсырмалары үшін дауыс кодерді оқытты.

KazLLM дамыту жобасы аясындағы жұмыстарды іске асыру AstanaHub-тың ішінара қолдауымен мүмкін болды.

1088

Bakyt Ospanova
Там. 29, 2024 19:39

Пікірлер 0

Кіру пікір қалдыру үшін

История Очистить

Популярные посты

Біз Aurma-ны өсуге қалай дайындадық: Yandex Cloud-тағы Инфрақұрылым туралы, ол көрінбейді, бірақ маңызды

Виктория Унгурян
Там. 11, 2025

🤖 Жасанды интеллект: ақылды көмекші ме, әлде білімнің болашағына шақыру ма?

ЕРЛАН АБДРАИМОВ
Там. 1, 2025

2025 жылы ең көп сұранысқа ие бағдарламалау тілдері

Кирилл Коваленко
Шілде 15, 2025

📘 ХХІ ғасырдағы білім: біз неге үйренеміз және ол қалай өзгереді

ЕРЛАН АБДРАИМОВ
Там. 1, 2025

Работа специалистов Sustainable Innovation and Technology Foundation по проекту KazLLM в августе

Тамыз айында KazLLM жобасы бойынша Sustainable Innovation and Technology Foundation мамандарының жұмысы

Bakyt Ospanova
Там. 29, 2024 19:39

Пікірлер 0

Ans s · Қыр. 11, 2024 15:16

Толеген Айтени · Там. 31, 2024 00:07

Nursultan Kabenov · Там. 30, 2024 21:07

Популярные посты

Біз Aurma-ны өсуге қалай дайындадық: Yandex Cloud-тағы Инфрақұрылым туралы, ол көрінбейді, бірақ маңызды

Виктория Унгурян Там. 11, 2025

🤖 Жасанды интеллект: ақылды көмекші ме, әлде білімнің болашағына шақыру ма?

ЕРЛАН АБДРАИМОВ Там. 1, 2025

2025 жылы ең көп сұранысқа ие бағдарламалау тілдері

Кирилл Коваленко Шілде 15, 2025

📘 ХХІ ғасырдағы білім: біз неге үйренеміз және ол қалай өзгереді

ЕРЛАН АБДРАИМОВ Там. 1, 2025

Работа специалистов Sustainable Innovation and Technology Foundation по проекту KazLLM в августе

Тамыз айында KazLLM жобасы бойынша Sustainable Innovation and Technology Foundation мамандарының жұмысы

Bakyt Ospanova Там. 29, 2024 19:39

Пікірлер 0

Ans s · Қыр. 11, 2024 15:16

Толеген Айтени · Там. 31, 2024 00:07

Nursultan Kabenov · Там. 30, 2024 21:07

Виктория Унгурян
Там. 11, 2025

ЕРЛАН АБДРАИМОВ
Там. 1, 2025

Кирилл Коваленко
Шілде 15, 2025

ЕРЛАН АБДРАИМОВ
Там. 1, 2025

Bakyt Ospanova
Там. 29, 2024 19:39