TextSense - rule-based модуль оценки осмысленности/шумности текста для многоязычных STT

Все страны

Сумма: 0

Количество заявок: 1

TextSense - rule-based модуль оценки осмысленности/шумности текста для многоязычных STT

Заказчик

ТОО "TalkIt"

Прием решений до

12.01.26

Форма вознаграждения

по договоренности

Статус продукта

Идея

Тип задачи

Задачи ИКТ

Сфера применения

Медиасфера

Область задачи

Нейротехнологии и искусственный интеллект

Тех задание

Скачать файл

Тип продукта

ПО/ИС

Описание проблемы

STT часто даёт "шум": набор разнородных существительных, помех, обрывков фраз. Это приводит к ложным активациям intent-распознавания, лишним вызовам бизнес-логики и расходу ресурсов. Использование ML/LLM для первичной фильтрации - дорого и не всегда оправдано: высокая латентность, стоимость, зависимость от внешних сервисов. Нужен быстрый, детерминированный фильтр, который отбрасывает очевидный мусор и помечает сомнительные случаи.

Ожидаемый эффект

Проект предполагает разработку лёгкой многоязычной NLP-модели (rule-based) для оценки осмысленности текстов, получаемых из STT-систем. Модуль предназначен для фильтрации шумов, обрывочных и тематически несвязных фраз до этапа intent-распознавания или передачи в ИИ. Решение реализуется на JavaScript, работает детерминированно и без обязательного использования ML/LLM, при этом допускается и приветствуется использование существующих NLP-библиотек (например, nlp.js, compromise, токенизаторов, морфологических утилит) для ускорения разработки и повышения качества анализа. Результатом работы модуля является числовая оценка (score 0–1) и объяснимые признаки, позволяющие надёжно применять его в многоязычных голосовых и текстовых системах в промышленной среде.

ФИО ответственного лица

Жанғазы Темірлан Маратұлы

Цель и описание задачи (проекта)

Создать лёгкий, детерминированный TypeScript-модуль, который по отрывку речи (уже преобразованный в текст) выдаёт числовой скор (0–1) и диагностические признаки, позволяющие надёжно (без ИИ/LLM) фильтровать шумы STT и низкосмысленную речь до стадии передачи на NLU/интент-классификатор. Модуль предназначен для интеграции в пайплайны голосовых роботов (STT → фильтр → intent/flow). Работает оффлайн/локально (без ML-инференса) и использует набор эвристик: грамматические маркеры, связки, частотные биграммы, доменные словари, простые регулярные паттерны, параметры длины/пунктуации. Выдаёт score для мониторинга и логов.

Примечание

Отправить решение