Пройти собеседование: 2GIS: Computer Vision для фото заведений и OCR

1Кейс25 мин

Выбор фото блюда для категории

Есть много фотографий ресторана и фиксированные категории еды. Как выбрать наиболее подходящее фото для категории в поисковой выдаче?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Скорим пары category-photo: сначала CLIP/embedding retrieval или classifier, затем rerank по качеству, релевантности, свежести, дублям и бизнес-правилам.

Подробный разбор

Сначала нужно зафиксировать выход: для каждой организации и категории выбрать одно или несколько фото, которые лучше всего представляют категорию. Базовый вариант - text embedding категории и image embeddings фотографий, cosine score и top-k. Если taxonomy фиксирована и данных достаточно, можно обучать multilabel classifier. Дальше нужен reranking: confidence модели, качество изображения, наличие еды крупным планом, отсутствие мусора/модерационных проблем, свежесть, разнообразие и дубликаты. Для latency можно считать embeddings offline и хранить top candidates per organization/category. Качество проверяется на gold set: category-photo relevance, precision@k, human preference, coverage по категориям и доля плохих показов.

Типичные ошибки

Выбирать только по максимальному score и забыть качество фото.
Не отделить offline indexing от online serving.
Не обсудить gold set и ассессорскую проверку.

Как сказать на собеседовании

Разложи на candidate generation и reranking.
Скажи про cache/top-k per organization/category.

2Вопрос12 мин

Вопрос

Для задачи матчинга фото еды и категорий что выбрать: CLIP-подход или supervised multilabel classifier?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

CLIP хорош как быстрый open-vocabulary baseline и для новых категорий; classifier лучше, если taxonomy стабильна и есть качественная разметка.

Подробный разбор

CLIP связывает text и image embeddings, поэтому можно быстро стартовать без полной разметки: сформулировать категории текстом и скорить фото по cosine similarity. Он удобен для новых или редких классов, но может путать близкие категории и плохо учитывать локальные бизнес-определения. Multilabel classifier лучше контролируется при фиксированной taxonomy: можно оптимизировать конкретные классы, калибровать thresholds, смотреть confusion matrix и дообучать на hard negatives. Минус - нужны данные и переобучение при изменении taxonomy. Практичный ответ: начать с CLIP baseline и gold set, затем дообучать голову/adapter или classifier на размеченных hard cases, если baseline проседает.

Типичные ошибки

Считать CLIP универсально лучшим без проверки домена.
Не упомянуть изменения taxonomy.
Не предложить hybrid path: CLIP baseline плюс supervised refinement.

Как сказать на собеседовании

Говори в терминах fixed vs open vocabulary.
Обязательно назови confusion matrix и hard negatives.

3Вопрос14 мин

Датасет и разметка food categories

Как собрать датасет и организовать разметку для матчинга фото ресторана с категориями еды?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Нужен gold set с понятными инструкциями, consensus нескольких разметчиков, авторазметка/active learning для ускорения и отдельная проверка hard classes.

Подробный разбор

Сначала формируем taxonomy категорий и инструкции с положительными/отрицательными примерами. Для gold set берем разнообразные организации, регионы, категории, качество фото и edge cases. Разметка должна быть простой: например, бинарный вопрос "есть ли еда категории X на фото" или выбор из ограниченного набора кандидатов, а не открытая формулировка. Для качества нужны несколько разметчиков, consensus, adjudication спорных примеров и контрольные задания. Чтобы снизить стоимость, можно использовать CLIP/LLM как prelabeler, но человеческая валидация остается source of truth. Active learning: отправлять на разметку примеры с низкой уверенностью, конфликты моделей и классы с плохими метриками.

Типичные ошибки

Не описать инструкцию для разметчиков.
Считать авторазметку готовым ground truth.
Не выделить validation/test по организациям или регионам.

Как сказать на собеседовании

Скажи "gold set" и "consensus".
Добавь active learning для снижения стоимости.

4Вопрос12 мин

Low-F1 классы в CV taxonomy

Модель хорошо работает в среднем, но у части классов низкий F1. Как диагностировать и чинить?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Нужно посмотреть confusion matrix и ошибки, проверить разметку/imbalance, добавить hard negatives, изменить prompts/descriptions, thresholds или обучить специализированную голову.

Подробный разбор

Диагностика начинается с per-class precision/recall/F1 и confusion matrix. Нужно понять, что именно происходит: мало positives, много похожих классов, плохая разметка, неоднозначная taxonomy, domain shift или неверный threshold. Дальше действия зависят от причины: добрать данные и hard negatives, уточнить инструкцию разметки, объединить слишком близкие классы, калибровать thresholds per class, улучшить текстовые описания категорий для CLIP, дообучить projection/head или сделать specialized model для группы классов. Важно не оптимизировать только macro-F1, если бизнесу важны конкретные категории или стоимость false positives выше false negatives.

Типичные ошибки

Сразу менять архитектуру без error analysis.
Не разделять precision и recall.
Игнорировать неоднозначные классы taxonomy.

Как сказать на собеседовании

Начни с confusion matrix и просмотра ошибок.
Назови hard negatives и threshold calibration.

5Вопрос12 мин

Representative photo для организации

Что значит "репрезентативное фото" для организации в гео-продукте и как выбрать такое фото автоматически?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Это фото, которое одновременно релевантно объекту, качественно визуально, свежее и не вводит пользователя в заблуждение.

Подробный разбор

Для организации можно ранжировать фото по нескольким группам сигналов. Релевантность: фото относится именно к этому месту, рубрике или популярному сценарию пользователя. Качество: резкость, свет, отсутствие мусора, лицензионные и модерационные ограничения. Продуктовый смысл: не показывать устаревший фасад, чужую вывеску, меню вместо блюда или слишком рекламный кадр. Система обычно строится как candidate generation по всем фото объекта и rerank: CV-классификаторы качества/содержания, OCR/гео-сигналы, пользовательские реакции, свежесть и ручные правила. Низкую уверенность лучше отправлять на moderation или fallback на проверенный editorial photo.

Типичные ошибки

Выбирать фото только по CLIP score.
Не учитывать freshness и неверную привязку фото к объекту.
Не иметь fallback для низкой уверенности.

Как сказать на собеседовании

Раздели relevance, quality и trust.
Упомяни human moderation для спорных случаев.

6Вопрос14 мин

Пайплайн OCR для вывесок

На фото есть вывеска организации. Как построить pipeline, который извлекает текст и использует его в продукте?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Сначала детектируем и выравниваем кроп вывески, затем OCR, нормализация текста, confidence, fuzzy matching с организациями и human review для низкой уверенности.

Подробный разбор

Pipeline обычно состоит из detection/segmentation вывески, crop/rectification, OCR, нормализации текста и матчинга. Нормализация включает регистр, пунктуацию, транслитерацию, юридические формы, опечатки и aliases. Для матчинга с организацией нельзя полагаться только на текст. Нужны координаты фото, candidate radius, known organization names, рубрики, логотипы и возможно visual similarity. Результат должен иметь confidence и причины, чтобы низкую уверенность отправлять на проверку. В production важны batch/offline пересчет, версионирование модели, мониторинг качества OCR по типам вывесок и защита от неверного переименования организаций.

Типичные ошибки

Думать, что OCR text сам по себе является названием организации.
Не использовать геокоординаты и candidate set.
Не иметь confidence/fallback.

Как сказать на собеседовании

Раздели OCR и entity matching.
Назови crop/rectification и fuzzy matching.

7Вопрос12 мин

OCR и geo entity matching

OCR распознал текст на вывеске. Как понять, какой организации он соответствует, и когда результат можно публиковать?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Нужно матчить OCR text не глобально, а среди nearby candidates с учетом координат, рубрики, aliases, fuzzy score и confidence.

Подробный разбор

После OCR строим candidate set по геолокации фото: организации рядом, видимость фасада, рубрика и уже известные названия/aliases. Текст нормализуется: регистр, пунктуация, транслитерация, юридические формы, частичные совпадения и опечатки. Дальше считаем score: fuzzy text similarity, расстояние, рубрика, история пользовательских фото, возможно visual/logo signals. Публиковать автоматически стоит только при высокой уверенности и отсутствии конфликтующих кандидатов. Если рядом несколько похожих организаций или OCR прочитал короткий/шумный текст, нужен human review или безопасный fallback.

Типичные ошибки

Матчить OCR ко всей базе без гео-кандидатов.
Игнорировать короткие и шумные строки.
Автоматически менять карточку без confidence threshold.

Как сказать на собеседовании

Скажи "nearby candidate set".
Обязательно добавь confidence threshold и review.