OCR и geo entity matching
OCR распознал текст на вывеске. Как понять, какой организации он соответствует, и когда результат можно публиковать?
Короткий ответ
Нужно матчить OCR text не глобально, а среди nearby candidates с учетом координат, рубрики, aliases, fuzzy score и confidence.
Полный разбор
После OCR строим candidate set по геолокации фото: организации рядом, видимость фасада, рубрика и уже известные названия/aliases. Текст нормализуется: регистр, пунктуация, транслитерация, юридические формы, частичные совпадения и опечатки.
Дальше считаем score: fuzzy text similarity, расстояние, рубрика, история пользовательских фото, возможно visual/logo signals. Публиковать автоматически стоит только при высокой уверенности и отсутствии конфликтующих кандидатов. Если рядом несколько похожих организаций или OCR прочитал короткий/шумный текст, нужен human review или безопасный fallback.
Теория
В гео-продукте OCR превращается в entity resolution: распознанная строка сама по себе не является надежной правкой карточки.
Типичные ошибки
- Матчить OCR ко всей базе без гео-кандидатов.
- Игнорировать короткие и шумные строки.
- Автоматически менять карточку без confidence threshold.
Как отвечать на собеседовании
- Скажи "nearby candidate set".
- Обязательно добавь confidence threshold и review.