Разработка гибридного метода вероятностного поиска и верификации записей в базах данных

29.04.2026

511 просмотров

Цель исследования – разработка гибридного метода вероятностного поиска и верификации записей в реляционных базах данных, позволяющего сопоставлять строковые атрибуты, содержащие опечатки, сокращения и разночтения. Методология базируется на вычислении нормированного расстояния Левенштейна для каждого атрибута, формировании байесовской оценки апостериорной вероятности совпадения записи из внешнего источника с эталонной записью и выборе кандидата, максимизирующего эту вероятность. Для повышения производительности применяются C-расширения (библиотека rapidfuzz), ограничение числа кандидатов топ‑20 наиболее похожих записей по ФИО, векторизация операций с помощью pandas и предварительная нормализация строк. Ключевые результаты: разработанный метод демонстрирует устойчивость к искажениям входных данных, учитывает одновременно несколько атрибутов (ФИО, идентификаторы, наименования) и не требует размеченной обучающей выборки, в отличие от классического вероятностного подхода Fellegi–Sunter. Экспериментальная проверка на эталонной базе из 250 тысяч записей и тестовой выборке из 159 искажённых записей показала время обработки 62 секунды на стандартном оборудовании. Вывод: предложенный гибридный метод сочетает гибкость нечёткого сравнения строк и вероятностную оценку, что делает его эффективным для задач интеграции и очистки данных в корпоративных информационных системах.