Команда SITF активно работала над KazLLM в ноябре

Ноябрь 2024 года  стал знаковым месяцем для разработки искусственного интеллекта и технологий в Казахстане. Команда KazLLM завершила масштабный сбор данных, включив в обучающий набор 409 миллионов токенов из различных источников, таких как Казахская Википедия и новостные ресурсы. Переход на новую модель Nemotron 70B и дополнение синтетическими данными позволили KazLLM не только превзойти оригинальную Llama 70B на трех языках, но и обойти OpenAI GPT-4o на русском языке. Корпус KazLLM значительно расширился, включив сотни тысяч параллельных строк на казахском, русском, английском и турецком языках.

Среди ключевых достижений — запуск Soyle App, основанного на модели SeamlessM4T. В приложении появилась интеграция платежной системы Halyk Epay с новыми тарифными планами, а также функционал для загрузки и перевода файлов с сохранением исходного формата. Команда провела хакатон, где разработчики создавали решения на базе API приложения, и представила Soyle App широкой аудитории на пресс-релизе. Также началась съемка обучающих видеоматериалов, а встречи с клиентами помогли получить ценную обратную связь для дальнейшего улучшения продукта.

Продолжается развитие систем распознавания речи. Новая модель ASR Whisper Turbo демонстрирует высокую точность в сложных условиях, включая шум и акценты. Добавлена поддержка английского, русского и турецкого языков, проведена аугментация данных для обеспечения стабильности работы в многоязычной среде. Исправления багов и улучшение интеграции с модулями, такими как Audio2Face, сделали систему более гибкой и надежной. Эти шаги приближают технологии к широкому применению в реальных условиях.

Следует отметить, что реализация работ в рамках проекта по развитию KazLLM стала возможной при частичной поддержке AstanaHub.

Комментарии 2

Авторизуйтесь чтобы оставить комментарий