Создаем приложение автокоррекции

Я решил проверить свои закрытые репозитории GitHub и нашел приложение автокоррекции, я проверил свой код и решил открыть его. Давайте разберемся как он работает.

1. Скрипт читает текстовый файл и извлекает слова для создания словаря
2. Скрипт конструирует набор уникальных слов (словарный запас) и вычисляет частоту каждого слова.
3. Вероятность каждого слова рассчитывается на основе его частоты в тексте
4. Для входного слова рассчитывается сходство Жаккара между входным словом и каждым словом в словаре.
5. Скрипт сортирует слова по сходству и вероятности, чтобы предложить наиболее вероятные исправления

Как работает сходство Жаккара?

Коэффициент Жаккара определяется соотношением двух размеров (площадей или объемов), размера пересечения, деленного на размер объединения, также называемого пересечением объединения (IoU - Intersection over Union)

Имплементация

Код на данный проект можете посмотреть в GitHub репозитории, написан на языке Python вместе с библиотеками pandas, numpy и textdistance.

Комментарии 0

Авторизуйтесь чтобы оставить комментарий