Тапсырыс беруші
... дейн шешім қабылдау

12.01.26

Марапаттау нысаны

келісім бойынша

Өнім күйі

Идея

Тапсырма түрі

Задачи ИКТ

Сфера применения

Медиасфера

Область задачи

Нейротехнология және жасанды интеллект

Tech-тапсырма
Өнім түрі

БҚ/АЖ

Мәселенің сипаттамасы

STT жүйелері жиі түрде «шулы» нәтиже береді: бір-бірімен байланысы жоқ зат есімдер жиынтығы, кедергілер, сөйлем үзінділері. Бұл интент-тану жүйесінің жалған іске қосылуына, бизнес-логиканың артық шақырылуына және ресурстардың тиімсіз жұмсалуына әкеледі. Алғашқы сүзгілеу үшін ML/LLM қолдану әрдайым орынды емес, себебі ол жоғары кідіріс, қымбат есептеу құны және сыртқы сервистерге тәуелділік тудырады. Сондықтан айқын мағынасыз деректерді алып тастайтын және күмәнді жағдайларды белгілейтін жылдам әрі детерминирленген сүзгі қажет.

Күтілетін әсер

Жоба STT жүйелерінен алынған мәтіндердің мағыналылығын бағалауға арналған жеңіл, көптілді NLP-модельді (rule-based) әзірлеуді көздейді. Модуль мағынасыз, үзілген немесе тақырыптық тұрғыда байланыссыз фразаларды интент-тану немесе ИИ-ге жіберу кезеңіне дейін сүзуге арналған. Шешім JavaScript тілінде іске асырылады, детерминирленген түрде жұмыс істейді және ML/LLM қолдануды міндетті түрде талап етпейді. Сонымен қатар, әзірлеуді жеделдету және талдау сапасын арттыру үшін дайын NLP-кітапханаларды (мысалы, nlp.js, compromise, токенизаторлар, морфологиялық құралдар) пайдалануға рұқсат етіледі және құпталады. Модульдің нәтижесі — 0–1 аралығындағы сандық баға (score) және түсіндірілетін диагностикалық белгілер. Бұл оны көптілді дауыстық және мәтіндік жүйелерде өндірістік деңгейде сенімді қолдануға мүмкіндік береді.

Жауапты тұлғаның ТАӘ

Жанғазы Темірлан Маратұлы

Тапсырманың (жобаның) мақсаты мен сипаттамасы

Дыбысты мәтінге айналдырудан (STT) кейін алынған сөйлеу үзіндісі бойынша 0–1 аралығындағы сандық көрсеткіш (score) және диагностикалық белгілерді анықтайтын жеңіл, детерминирленген TypeScript-модульді әзірлеу көзделеді. Бұл модуль жасанды интеллект пен LLM қолданбай, STT-шуларын және мағынасы төмен сөйлемдерді NLU немесе интент-классификаторға жіберу кезеңіне дейін сенімді түрде сүзуге мүмкіндік береді. Модуль дауыс роботтарының өңдеу тізбегіне (STT → сүзгі → intent/flow) интеграциялауға арналған. Ол офлайн / локалды режимде жұмыс істейді (ML-инференссіз) және келесі эвристикалар жиынтығын пайдаланады: грамматикалық маркерлер, байланыстырушы сөздер, жиі қолданылатын биграммалар, домендік сөздіктер, қарапайым регулярлы өрнектер, мәтін ұзындығы мен тыныс белгілеріне негізделген параметрлер. Нәтижесінде мониторинг пен логтау үшін қолданылатын score мәні шығарылады.

Ескерту