К тренажеру
ВопросMediumcv-system-designРеальный собес

OCR и geo entity matching

OCR распознал текст на вывеске. Как понять, какой организации он соответствует, и когда результат можно публиковать?

Короткий ответ

Нужно матчить OCR text не глобально, а среди nearby candidates с учетом координат, рубрики, aliases, fuzzy score и confidence.

Полный разбор

После OCR строим candidate set по геолокации фото: организации рядом, видимость фасада, рубрика и уже известные названия/aliases. Текст нормализуется: регистр, пунктуация, транслитерация, юридические формы, частичные совпадения и опечатки.

Дальше считаем score: fuzzy text similarity, расстояние, рубрика, история пользовательских фото, возможно visual/logo signals. Публиковать автоматически стоит только при высокой уверенности и отсутствии конфликтующих кандидатов. Если рядом несколько похожих организаций или OCR прочитал короткий/шумный текст, нужен human review или безопасный fallback.

Теория

В гео-продукте OCR превращается в entity resolution: распознанная строка сама по себе не является надежной правкой карточки.

Типичные ошибки

  • Матчить OCR ко всей базе без гео-кандидатов.
  • Игнорировать короткие и шумные строки.
  • Автоматически менять карточку без confidence threshold.

Как отвечать на собеседовании

  • Скажи "nearby candidate set".
  • Обязательно добавь confidence threshold и review.