Работа специалистов Sustainable Innovation and Technology Foundation по проекту KazLLM в августе

В августе 2024 года специалисты Sustainable Innovation and Technology Foundation пополняли массив данных для создания модели, проверяющей орфографию на казахском языке. На данный момент массив данных состоит из более чем 409 миллионов токенов, которые включены в обучающий набор KazLLM, что позволит модели улучшить качество ответов на казахском языке. Проведено обучение языковой модели с 8 миллиардами параметров, включающее первичное дообучение на корпусе казахского языка и улучшение на специализированном датасете. Специалисты проекта также реализовали оптимизацию и ускорение процесса генерации текста.

В рамках проведения сравнительного анализа моделей на английском и казахском языках разработан веб-интерфейс на платформе HuggingFace и проведен первый сравнительный анализ датасетов на английском и казахском языках, при этом датасет на казахском языке подготовлен с помощью машинного перевода.

В части улучшения модели нейронного машинного перевода параллельный корпус казахского языка был расширен до 470 тысяч строк на нескольких языках, была улучшена демо-версия перевода и добавлены новые возможности на веб-интерфейсе. Кроме того, команда проекта провела настройку модели SeamlessM4T для одновременного распознавания и перевода речи, а также обучила вокодер для задач перевода речи и синтеза речи.

Реализация работ в рамках проекта по развитию KazLLM стала возможной при частичной поддержке AstanaHub.

1086

Bakyt Ospanova
Авг. 29, 2024 19:39

Комментарии 0

Авторизуйтесь чтобы оставить комментарий

История Очистить

Популярные посты

Как мы подготовили Aurma к росту: про инфраструктуру на Yandex Cloud, которую не видно, но которая важна

Виктория Унгурян
11 августа 2025 г.

🤖 Искусственный интеллект: умный помощник или вызов будущему образования?

ЕРЛАН АБДРАИМОВ
1 августа 2025 г.

Самые востребованные языки программирования в 2025 году

Кирилл Коваленко
15 июля 2025 г.

📘 Образование в XXI веке: зачем мы учимся и как это меняется

ЕРЛАН АБДРАИМОВ
1 августа 2025 г.

Работа специалистов Sustainable Innovation and Technology Foundation по проекту KazLLM в августе

Bakyt Ospanova
Авг. 29, 2024 19:39

Комментарии 0

Ans s · Сен. 11, 2024 15:16

Толеген Айтени · Авг. 31, 2024 00:07

Nursultan Kabenov · Авг. 30, 2024 21:07

Популярные посты

Как мы подготовили Aurma к росту: про инфраструктуру на Yandex Cloud, которую не видно, но которая важна

Виктория Унгурян 11 августа 2025 г.

🤖 Искусственный интеллект: умный помощник или вызов будущему образования?

ЕРЛАН АБДРАИМОВ 1 августа 2025 г.

Самые востребованные языки программирования в 2025 году

Кирилл Коваленко 15 июля 2025 г.

📘 Образование в XXI веке: зачем мы учимся и как это меняется

ЕРЛАН АБДРАИМОВ 1 августа 2025 г.

Работа специалистов Sustainable Innovation and Technology Foundation по проекту KazLLM в августе

Bakyt Ospanova Авг. 29, 2024 19:39

Комментарии 0

Ans s · Сен. 11, 2024 15:16

Толеген Айтени · Авг. 31, 2024 00:07

Nursultan Kabenov · Авг. 30, 2024 21:07

Виктория Унгурян
11 августа 2025 г.

ЕРЛАН АБДРАИМОВ
1 августа 2025 г.

Кирилл Коваленко
15 июля 2025 г.

ЕРЛАН АБДРАИМОВ
1 августа 2025 г.

Bakyt Ospanova
Авг. 29, 2024 19:39