К обычному разбору
Тренировка по собеседованиюТехническое собеседование2GIS2026-05-05

2GIS: Computer Vision для фото заведений и OCR

Идите сверху вниз: сначала попробуйте сами, затем откройте разбор. Если шаг с кодом, пишите решение прямо здесь и запускайте проверки на странице.

Шагов
7
Вопросов
7
Задач
0
1Кейс25 мин

Выбор фото блюда для категории

Есть много фотографий ресторана и фиксированные категории еды. Как выбрать наиболее подходящее фото для категории в поисковой выдаче?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Показать разбор

Короткий ответ

Скорим пары category-photo: сначала CLIP/embedding retrieval или classifier, затем rerank по качеству, релевантности, свежести, дублям и бизнес-правилам.

Подробный разбор

Сначала нужно зафиксировать выход: для каждой организации и категории выбрать одно или несколько фото, которые лучше всего представляют категорию. Базовый вариант - text embedding категории и image embeddings фотографий, cosine score и top-k. Если taxonomy фиксирована и данных достаточно, можно обучать multilabel classifier.

Дальше нужен reranking: confidence модели, качество изображения, наличие еды крупным планом, отсутствие мусора/модерационных проблем, свежесть, разнообразие и дубликаты. Для latency можно считать embeddings offline и хранить top candidates per organization/category.

Качество проверяется на gold set: category-photo relevance, precision@k, human preference, coverage по категориям и доля плохих показов.

Типичные ошибки

  • Выбирать только по максимальному score и забыть качество фото.
  • Не отделить offline indexing от online serving.
  • Не обсудить gold set и ассессорскую проверку.

Как сказать на собеседовании

  • Разложи на candidate generation и reranking.
  • Скажи про cache/top-k per organization/category.
2Вопрос12 мин

Вопрос

Для задачи матчинга фото еды и категорий что выбрать: CLIP-подход или supervised multilabel classifier?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Показать разбор

Короткий ответ

CLIP хорош как быстрый open-vocabulary baseline и для новых категорий; classifier лучше, если taxonomy стабильна и есть качественная разметка.

Подробный разбор

CLIP связывает text и image embeddings, поэтому можно быстро стартовать без полной разметки: сформулировать категории текстом и скорить фото по cosine similarity. Он удобен для новых или редких классов, но может путать близкие категории и плохо учитывать локальные бизнес-определения.

Multilabel classifier лучше контролируется при фиксированной taxonomy: можно оптимизировать конкретные классы, калибровать thresholds, смотреть confusion matrix и дообучать на hard negatives. Минус - нужны данные и переобучение при изменении taxonomy.

Практичный ответ: начать с CLIP baseline и gold set, затем дообучать голову/adapter или classifier на размеченных hard cases, если baseline проседает.

Типичные ошибки

  • Считать CLIP универсально лучшим без проверки домена.
  • Не упомянуть изменения taxonomy.
  • Не предложить hybrid path: CLIP baseline плюс supervised refinement.

Как сказать на собеседовании

  • Говори в терминах fixed vs open vocabulary.
  • Обязательно назови confusion matrix и hard negatives.
3Вопрос14 мин

Датасет и разметка food categories

Как собрать датасет и организовать разметку для матчинга фото ресторана с категориями еды?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Показать разбор

Короткий ответ

Нужен gold set с понятными инструкциями, consensus нескольких разметчиков, авторазметка/active learning для ускорения и отдельная проверка hard classes.

Подробный разбор

Сначала формируем taxonomy категорий и инструкции с положительными/отрицательными примерами. Для gold set берем разнообразные организации, регионы, категории, качество фото и edge cases. Разметка должна быть простой: например, бинарный вопрос "есть ли еда категории X на фото" или выбор из ограниченного набора кандидатов, а не открытая формулировка.

Для качества нужны несколько разметчиков, consensus, adjudication спорных примеров и контрольные задания. Чтобы снизить стоимость, можно использовать CLIP/LLM как prelabeler, но человеческая валидация остается source of truth.

Active learning: отправлять на разметку примеры с низкой уверенностью, конфликты моделей и классы с плохими метриками.

Типичные ошибки

  • Не описать инструкцию для разметчиков.
  • Считать авторазметку готовым ground truth.
  • Не выделить validation/test по организациям или регионам.

Как сказать на собеседовании

  • Скажи "gold set" и "consensus".
  • Добавь active learning для снижения стоимости.
4Вопрос12 мин

Low-F1 классы в CV taxonomy

Модель хорошо работает в среднем, но у части классов низкий F1. Как диагностировать и чинить?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Показать разбор

Короткий ответ

Нужно посмотреть confusion matrix и ошибки, проверить разметку/imbalance, добавить hard negatives, изменить prompts/descriptions, thresholds или обучить специализированную голову.

Подробный разбор

Диагностика начинается с per-class precision/recall/F1 и confusion matrix. Нужно понять, что именно происходит: мало positives, много похожих классов, плохая разметка, неоднозначная taxonomy, domain shift или неверный threshold.

Дальше действия зависят от причины: добрать данные и hard negatives, уточнить инструкцию разметки, объединить слишком близкие классы, калибровать thresholds per class, улучшить текстовые описания категорий для CLIP, дообучить projection/head или сделать specialized model для группы классов.

Важно не оптимизировать только macro-F1, если бизнесу важны конкретные категории или стоимость false positives выше false negatives.

Типичные ошибки

  • Сразу менять архитектуру без error analysis.
  • Не разделять precision и recall.
  • Игнорировать неоднозначные классы taxonomy.

Как сказать на собеседовании

  • Начни с confusion matrix и просмотра ошибок.
  • Назови hard negatives и threshold calibration.
5Вопрос12 мин

Representative photo для организации

Что значит "репрезентативное фото" для организации в гео-продукте и как выбрать такое фото автоматически?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Показать разбор

Короткий ответ

Это фото, которое одновременно релевантно объекту, качественно визуально, свежее и не вводит пользователя в заблуждение.

Подробный разбор

Для организации можно ранжировать фото по нескольким группам сигналов. Релевантность: фото относится именно к этому месту, рубрике или популярному сценарию пользователя. Качество: резкость, свет, отсутствие мусора, лицензионные и модерационные ограничения. Продуктовый смысл: не показывать устаревший фасад, чужую вывеску, меню вместо блюда или слишком рекламный кадр.

Система обычно строится как candidate generation по всем фото объекта и rerank: CV-классификаторы качества/содержания, OCR/гео-сигналы, пользовательские реакции, свежесть и ручные правила. Низкую уверенность лучше отправлять на moderation или fallback на проверенный editorial photo.

Типичные ошибки

  • Выбирать фото только по CLIP score.
  • Не учитывать freshness и неверную привязку фото к объекту.
  • Не иметь fallback для низкой уверенности.

Как сказать на собеседовании

  • Раздели relevance, quality и trust.
  • Упомяни human moderation для спорных случаев.
6Вопрос14 мин

Пайплайн OCR для вывесок

На фото есть вывеска организации. Как построить pipeline, который извлекает текст и использует его в продукте?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Показать разбор

Короткий ответ

Сначала детектируем и выравниваем кроп вывески, затем OCR, нормализация текста, confidence, fuzzy matching с организациями и human review для низкой уверенности.

Подробный разбор

Pipeline обычно состоит из detection/segmentation вывески, crop/rectification, OCR, нормализации текста и матчинга. Нормализация включает регистр, пунктуацию, транслитерацию, юридические формы, опечатки и aliases.

Для матчинга с организацией нельзя полагаться только на текст. Нужны координаты фото, candidate radius, known organization names, рубрики, логотипы и возможно visual similarity. Результат должен иметь confidence и причины, чтобы низкую уверенность отправлять на проверку.

В production важны batch/offline пересчет, версионирование модели, мониторинг качества OCR по типам вывесок и защита от неверного переименования организаций.

Типичные ошибки

  • Думать, что OCR text сам по себе является названием организации.
  • Не использовать геокоординаты и candidate set.
  • Не иметь confidence/fallback.

Как сказать на собеседовании

  • Раздели OCR и entity matching.
  • Назови crop/rectification и fuzzy matching.
7Вопрос12 мин

OCR и geo entity matching

OCR распознал текст на вывеске. Как понять, какой организации он соответствует, и когда результат можно публиковать?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Показать разбор

Короткий ответ

Нужно матчить OCR text не глобально, а среди nearby candidates с учетом координат, рубрики, aliases, fuzzy score и confidence.

Подробный разбор

После OCR строим candidate set по геолокации фото: организации рядом, видимость фасада, рубрика и уже известные названия/aliases. Текст нормализуется: регистр, пунктуация, транслитерация, юридические формы, частичные совпадения и опечатки.

Дальше считаем score: fuzzy text similarity, расстояние, рубрика, история пользовательских фото, возможно visual/logo signals. Публиковать автоматически стоит только при высокой уверенности и отсутствии конфликтующих кандидатов. Если рядом несколько похожих организаций или OCR прочитал короткий/шумный текст, нужен human review или безопасный fallback.

Типичные ошибки

  • Матчить OCR ко всей базе без гео-кандидатов.
  • Игнорировать короткие и шумные строки.
  • Автоматически менять карточку без confidence threshold.

Как сказать на собеседовании

  • Скажи "nearby candidate set".
  • Обязательно добавь confidence threshold и review.