LLM-чат-боттарды автоматтандырылған стресс-тестілеу және валидациялау

Тек ҚР

Ақша сомасы: 0

Өтінімдер саны: 1

LLM-чат-боттарды автоматтандырылған стресс-тестілеу және валидациялау

Тапсырыс беруші

Sirius LTW

... дейн шешім қабылдау

12.01.26

Марапаттау нысаны

Партнерство

Өнім күйі

Идея

Тапсырма түрі

Задачи ИКТ

Сфера применения

Медиасфера

Область задачи

Басқа технологиялық шешімдер

Өнім түрі

БҚ/АЖ

Мәселенің сипаттамасы

Бағдарламалық қамтамасыз етуді тестілеудің дәстүрлі әдістері (юнит-тесттер) генеративті чат-боттарды тексеруге жарамайды. Диалогтарды қолмен тестілеу тым көп уақытты алады, субъективті болып келеді және пайдаланушылардың мінез-құлқының барлық нұсқаларын қамти алмайды. Негізгі боттың промпттары немесе білім базасы жаңартылған кезде регрессия қаупі жоғары (бот мәнмәтінді ұмыта бастайды немесе "галлюцинацияға" ұшырайды). Біз ботты өндірістік ортаға (production) шығармас бұрын, оның сызықтық емес, күрделі диалогтарда "сүрінбейтініне" көз жеткізуіміз керек.

Күтілетін әсер

QA процесін автоматтандыру: Гипотезалар мен промпттарды тестілеу уақытын бірнеше күннен бірнеше минутқа дейін қысқарту. Өнім сапасы: "Галлюцинациялар" мен мәнмәтінді жоғалту жағдайларын нақты клиент көрмес бұрын анықтау. Объективтілік: Боттың әрбір жаңартуы бойынша диалог сапасының сандық метрикаларын (Scorecard) алу. Масштабтау мүмкіндігі: Жүйенің тұрақтылығын тексеру үшін бір түнде 1000 диалог симуляциясын іске қосу мүмкіндігі.

Жауапты тұлғаның ТАӘ

Байжанысов Б.

Тапсырманың (жобаның) мақсаты мен сипаттамасы

Мақсаты және тапсырманың сипаттамасы (Цель и описание задачи) Мақсаты: Туристік агенттіктің нақты клиенттерінің мінез-құлқын имитациялайтын және тексерілетін боттың жауаптарының сапасын бағалайтын автоматтандырылған жүйені ("Бот-тестілеуші") құру. Тапсырманың мәні: Біздің негізгі ботымыздың API-ына сұраулар жіберетін, жауаптарды қабылдап, оларға баға беретін, рөльдік тұрғыдан "қиын" немесе "күрделі" клиент бола алатын құралды әзірлеу қажет. Таләп етілетін функционал (Үміткерден ұсыныстар күтеміз): Персоналар мен сценарийлерді генерациялау (Simulation): Бот-тестілеуші әртүрлі рөлдерді ойнай білуі керек (мысалы: "Бюджеті шектеулі турист", "Балалы отбасы", "Шыдамсыз клиент"). Тапсырма: Турлар, қонақ үйлер, визалар және ұшу билеттері бойынша нақты сұраныстарды имитациялау. Мәнмәтінді ұстап тұруды тексеру (Context & Memory Testing): Бұл – сыни талап. Тестілеуші негізгі ботты қасақана "шатастыруы" керек. Сценарий: Түркиядағы қонақ үй туралы сұрау -> Ұшу билеті туралы сұрау -> Қайтадан қонақ үйдегі тамақтану туралы сұрау (қонақ үй атауын қайталамастан). Үміткерге сұрақ: Негізгі боттың әңгіме желісін жоғалтпағанын бағдарламалық түрде қалай тексересіз? Стресс-тестілеу (Adversarial Testing): Аралас ниеттер (Mixed Intents): Бір хабарламада бірнеше қызметті сұрау ("Мысырға барғым келеді, бірақ ұшу ертең болсын және қонақ үй 5 жұлдызды, әрі арзан болсын"). Тақырыпты ауыстыру: Турды таңдаудан ақшаны қайтару мәселесіне кенеттен өту. Бағалау модулі (AI Judge): Тестілеуші жай ғана сөйлесіп қоймай, есеп беруі керек. Метрикалар: Жауаптың релеванттылығы (1-10), Фактілік дәлдік (галлюцинациялардың жоқтығы), Қарым-қатынас тоны. Үміткерге сұрақ: Жауаптардың сапасын автоматты түрде бағалау үшін қандай әдістемені ұсынасыз (LLM-as-a-Judge, RAGAS немесе басқа)?

Ескерту

Шешім жіберу