Сумма: 0
Количество заявок: 0
12.01.26
по договоренности
Идея
Задачи ИКТ
Медиасфера
Нейротехнологии и искусственный интеллект
ПО/ИС
STT часто даёт "шум": набор разнородных существительных, помех, обрывков фраз. Это приводит к ложным активациям intent-распознавания, лишним вызовам бизнес-логики и расходу ресурсов. Использование ML/LLM для первичной фильтрации - дорого и не всегда оправдано: высокая латентность, стоимость, зависимость от внешних сервисов. Нужен быстрый, детерминированный фильтр, который отбрасывает очевидный мусор и помечает сомнительные случаи.
Проект предполагает разработку лёгкой многоязычной NLP-модели (rule-based) для оценки осмысленности текстов, получаемых из STT-систем. Модуль предназначен для фильтрации шумов, обрывочных и тематически несвязных фраз до этапа intent-распознавания или передачи в ИИ. Решение реализуется на JavaScript, работает детерминированно и без обязательного использования ML/LLM, при этом допускается и приветствуется использование существующих NLP-библиотек (например, nlp.js, compromise, токенизаторов, морфологических утилит) для ускорения разработки и повышения качества анализа. Результатом работы модуля является числовая оценка (score 0–1) и объяснимые признаки, позволяющие надёжно применять его в многоязычных голосовых и текстовых системах в промышленной среде.
Жанғазы Темірлан Маратұлы
Цель и описание задачи (проекта)
Создать лёгкий, детерминированный TypeScript-модуль, который по отрывку речи (уже преобразованный в текст) выдаёт числовой скор (0–1) и диагностические признаки, позволяющие надёжно (без ИИ/LLM) фильтровать шумы STT и низкосмысленную речь до стадии передачи на NLU/интент-классификатор. Модуль предназначен для интеграции в пайплайны голосовых роботов (STT → фильтр → intent/flow). Работает оффлайн/локально (без ML-инференса) и использует набор эвристик: грамматические маркеры, связки, частотные биграммы, доменные словари, простые регулярные паттерны, параметры длины/пунктуации. Выдаёт score для мониторинга и логов.