Создаем приложение автокоррекции

Я решил проверить свои закрытые репозитории GitHub и нашел приложение автокоррекции, я проверил свой код и решил открыть его. Давайте разберемся как он работает.
1. Скрипт читает текстовый файл и извлекает слова для создания словаря
2. Скрипт конструирует набор уникальных слов (словарный запас) и вычисляет частоту каждого слова.
3. Вероятность каждого слова рассчитывается на основе его частоты в тексте
4. Для входного слова рассчитывается сходство Жаккара между входным словом и каждым словом в словаре.
5. Скрипт сортирует слова по сходству и вероятности, чтобы предложить наиболее вероятные исправления
Как работает сходство Жаккара?
Коэффициент Жаккара определяется соотношением двух размеров (площадей или объемов), размера пересечения, деленного на размер объединения, также называемого пересечением объединения (IoU - Intersection over Union)

Имплементация
Код на данный проект можете посмотреть в GitHub репозитории, написан на языке Python вместе с библиотеками pandas, numpy и textdistance.
Комментарии 2
Авторизуйтесь чтобы оставить комментарий
Lain Iwakura · Фев. 4, 2025 10:57
👍👍
Balzhan I · Янв. 14, 2025 16:10
интересно!