К тренажеру
ВопросMediumcv-system-designРеальный собес

Signage OCR pipeline

На фото есть вывеска организации. Как построить pipeline, который извлекает текст и использует его в продукте?

Короткий ответ

Сначала детектируем и выравниваем кроп вывески, затем OCR, нормализация текста, confidence, fuzzy matching с организациями и human review для низкой уверенности.

Полный разбор

Pipeline обычно состоит из detection/segmentation вывески, crop/rectification, OCR, нормализации текста и матчинга. Нормализация включает регистр, пунктуацию, транслитерацию, юридические формы, опечатки и aliases.

Для матчинга с организацией нельзя полагаться только на текст. Нужны координаты фото, candidate radius, known organization names, рубрики, логотипы и возможно visual similarity. Результат должен иметь confidence и причины, чтобы низкую уверенность отправлять на проверку.

В production важны batch/offline пересчет, версионирование модели, мониторинг качества OCR по типам вывесок и защита от неверного переименования организаций.

Теория

OCR в гео-продукте быстро становится entity resolution задачей: распознать текст мало, нужно надежно привязать его к объекту.

Типичные ошибки

  • Думать, что OCR text сам по себе является названием организации.
  • Не использовать геокоординаты и candidate set.
  • Не иметь confidence/fallback.

Как отвечать на собеседовании

  • Раздели OCR и entity matching.
  • Назови crop/rectification и fuzzy matching.