Октябрь стал продуктивным для команды специалистов Sustainable Innovation and Technology Foundation, работающих над реализацией проекта KazLLM

В октябре команда специалистов Sustainable Innovation and Technology Foundation выполнила значительный объём работы в нескольких ключевых направлениях. Основные достижения охватывают области обработки естественного языка и искусственного интеллекта, а также оптимизацию и обновление функционала существующих продуктов, таких как KazLLM и Soyle.

Команда завершила сбор данных из различных источников для создания обучающего набора для модели KazLLM, способной проверять орфографию казахского языка. В октябре размер набора данных достиг 409 586 135 токенов, что стало важной основой для дальнейшего улучшения точности и возможностей модели.

Кроме того, велись работы по улучшению нового токенизатора, что позволило эффективнее обучать модель KazLLM на казахском тексте. Тренировка вокодера продолжается на 10 спикерах, показывая промежуточные результаты. Перетренирована модель машинного перевода текста, что привело к улучшению метрик BLEU на более чем 2 пункта. Продолжается тренировка мультизадачной модели для распознавания и перевода речи, а также текстового перевода. Эти работы позвонили добавить функционал выбора голоса (мужской или женский) для text-to-speech, в тестовом режиме интегрировать работу с платежной системой и повысить скорость отклика за счет параллельной обработки запросов и распределение нагрузки в продукте Soyle. Другая часть команды работала над улучшением виртуального аватара. Был улучшен внешний вид виртуального аватара и добавлен виртуальный школьный кабинет для взаимодействия пользователей, внедрена технология распознавания лиц для идентификации пользователей, кроме того, виртуальный аватар интегрирован с новой версии KazLLM с 70 миллиардами параметров, обеспечивающей более высокую точность в обработке запросов и улучшенный пользовательский опыт.

Следует отметить, что реализация работ в рамках проекта по развитию KazLLM стала возможной при частичной поддержке AstanaHub.

Комментарии 4

Авторизуйтесь чтобы оставить комментарий