Назад к подготовке

ВопросСредняяcv-system-designВопрос про production ML на техническом собеседовании · 2GIS

Пайплайн OCR для вывесок

На фото есть вывеска организации. Как построить pipeline, который извлекает текст и использует его в продукте?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Сначала детектируем и выравниваем кроп вывески, затем OCR, нормализация текста, confidence, fuzzy matching с организациями и human review для низкой уверенности.

Полный разбор

Pipeline обычно состоит из detection/segmentation вывески, crop/rectification, OCR, нормализации текста и матчинга. Нормализация включает регистр, пунктуацию, транслитерацию, юридические формы, опечатки и aliases. Для матчинга с организацией нельзя полагаться только на текст. Нужны координаты фото, candidate radius, known organization names, рубрики, логотипы и возможно visual similarity. Результат должен иметь confidence и причины, чтобы низкую уверенность отправлять на проверку. В production важны batch/offline пересчет, версионирование модели, мониторинг качества OCR по типам вывесок и защита от неверного переименования организаций.

Теория

OCR в гео-продукте быстро становится entity resolution задачей: распознать текст мало, нужно надежно привязать его к объекту.

Типичные ошибки

Думать, что OCR text сам по себе является названием организации.
Не использовать геокоординаты и candidate set.
Не иметь confidence/fallback.

Как отвечать на собеседовании

Раздели OCR и entity matching.
Назови crop/rectification и fuzzy matching.