Signage OCR pipeline
На фото есть вывеска организации. Как построить pipeline, который извлекает текст и использует его в продукте?
Короткий ответ
Сначала детектируем и выравниваем кроп вывески, затем OCR, нормализация текста, confidence, fuzzy matching с организациями и human review для низкой уверенности.
Полный разбор
Pipeline обычно состоит из detection/segmentation вывески, crop/rectification, OCR, нормализации текста и матчинга. Нормализация включает регистр, пунктуацию, транслитерацию, юридические формы, опечатки и aliases.
Для матчинга с организацией нельзя полагаться только на текст. Нужны координаты фото, candidate radius, known organization names, рубрики, логотипы и возможно visual similarity. Результат должен иметь confidence и причины, чтобы низкую уверенность отправлять на проверку.
В production важны batch/offline пересчет, версионирование модели, мониторинг качества OCR по типам вывесок и защита от неверного переименования организаций.
Теория
OCR в гео-продукте быстро становится entity resolution задачей: распознать текст мало, нужно надежно привязать его к объекту.
Типичные ошибки
- Думать, что OCR text сам по себе является названием организации.
- Не использовать геокоординаты и candidate set.
- Не иметь confidence/fallback.
Как отвечать на собеседовании
- Раздели OCR и entity matching.
- Назови crop/rectification и fuzzy matching.