Выбор фото блюда для категории
Есть много фотографий ресторана и фиксированные категории еды. Как выбрать наиболее подходящее фото для категории в поисковой выдаче?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Скорим пары category-photo: сначала CLIP/embedding retrieval или classifier, затем rerank по качеству, релевантности, свежести, дублям и бизнес-правилам.
Подробный разбор
Сначала нужно зафиксировать выход: для каждой организации и категории выбрать одно или несколько фото, которые лучше всего представляют категорию. Базовый вариант - text embedding категории и image embeddings фотографий, cosine score и top-k. Если taxonomy фиксирована и данных достаточно, можно обучать multilabel classifier.
Дальше нужен reranking: confidence модели, качество изображения, наличие еды крупным планом, отсутствие мусора/модерационных проблем, свежесть, разнообразие и дубликаты. Для latency можно считать embeddings offline и хранить top candidates per organization/category.
Качество проверяется на gold set: category-photo relevance, precision@k, human preference, coverage по категориям и доля плохих показов.
Типичные ошибки
- Выбирать только по максимальному score и забыть качество фото.
- Не отделить offline indexing от online serving.
- Не обсудить gold set и ассессорскую проверку.
Как сказать на собеседовании
- Разложи на candidate generation и reranking.
- Скажи про cache/top-k per organization/category.
Вопрос
Для задачи матчинга фото еды и категорий что выбрать: CLIP-подход или supervised multilabel classifier?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
CLIP хорош как быстрый open-vocabulary baseline и для новых категорий; classifier лучше, если taxonomy стабильна и есть качественная разметка.
Подробный разбор
CLIP связывает text и image embeddings, поэтому можно быстро стартовать без полной разметки: сформулировать категории текстом и скорить фото по cosine similarity. Он удобен для новых или редких классов, но может путать близкие категории и плохо учитывать локальные бизнес-определения.
Multilabel classifier лучше контролируется при фиксированной taxonomy: можно оптимизировать конкретные классы, калибровать thresholds, смотреть confusion matrix и дообучать на hard negatives. Минус - нужны данные и переобучение при изменении taxonomy.
Практичный ответ: начать с CLIP baseline и gold set, затем дообучать голову/adapter или classifier на размеченных hard cases, если baseline проседает.
Типичные ошибки
- Считать CLIP универсально лучшим без проверки домена.
- Не упомянуть изменения taxonomy.
- Не предложить hybrid path: CLIP baseline плюс supervised refinement.
Как сказать на собеседовании
- Говори в терминах fixed vs open vocabulary.
- Обязательно назови confusion matrix и hard negatives.
Датасет и разметка food categories
Как собрать датасет и организовать разметку для матчинга фото ресторана с категориями еды?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Нужен gold set с понятными инструкциями, consensus нескольких разметчиков, авторазметка/active learning для ускорения и отдельная проверка hard classes.
Подробный разбор
Сначала формируем taxonomy категорий и инструкции с положительными/отрицательными примерами. Для gold set берем разнообразные организации, регионы, категории, качество фото и edge cases. Разметка должна быть простой: например, бинарный вопрос "есть ли еда категории X на фото" или выбор из ограниченного набора кандидатов, а не открытая формулировка.
Для качества нужны несколько разметчиков, consensus, adjudication спорных примеров и контрольные задания. Чтобы снизить стоимость, можно использовать CLIP/LLM как prelabeler, но человеческая валидация остается source of truth.
Active learning: отправлять на разметку примеры с низкой уверенностью, конфликты моделей и классы с плохими метриками.
Типичные ошибки
- Не описать инструкцию для разметчиков.
- Считать авторазметку готовым ground truth.
- Не выделить validation/test по организациям или регионам.
Как сказать на собеседовании
- Скажи "gold set" и "consensus".
- Добавь active learning для снижения стоимости.
Low-F1 классы в CV taxonomy
Модель хорошо работает в среднем, но у части классов низкий F1. Как диагностировать и чинить?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Нужно посмотреть confusion matrix и ошибки, проверить разметку/imbalance, добавить hard negatives, изменить prompts/descriptions, thresholds или обучить специализированную голову.
Подробный разбор
Диагностика начинается с per-class precision/recall/F1 и confusion matrix. Нужно понять, что именно происходит: мало positives, много похожих классов, плохая разметка, неоднозначная taxonomy, domain shift или неверный threshold.
Дальше действия зависят от причины: добрать данные и hard negatives, уточнить инструкцию разметки, объединить слишком близкие классы, калибровать thresholds per class, улучшить текстовые описания категорий для CLIP, дообучить projection/head или сделать specialized model для группы классов.
Важно не оптимизировать только macro-F1, если бизнесу важны конкретные категории или стоимость false positives выше false negatives.
Типичные ошибки
- Сразу менять архитектуру без error analysis.
- Не разделять precision и recall.
- Игнорировать неоднозначные классы taxonomy.
Как сказать на собеседовании
- Начни с confusion matrix и просмотра ошибок.
- Назови hard negatives и threshold calibration.
Representative photo для организации
Что значит "репрезентативное фото" для организации в гео-продукте и как выбрать такое фото автоматически?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Это фото, которое одновременно релевантно объекту, качественно визуально, свежее и не вводит пользователя в заблуждение.
Подробный разбор
Для организации можно ранжировать фото по нескольким группам сигналов. Релевантность: фото относится именно к этому месту, рубрике или популярному сценарию пользователя. Качество: резкость, свет, отсутствие мусора, лицензионные и модерационные ограничения. Продуктовый смысл: не показывать устаревший фасад, чужую вывеску, меню вместо блюда или слишком рекламный кадр.
Система обычно строится как candidate generation по всем фото объекта и rerank: CV-классификаторы качества/содержания, OCR/гео-сигналы, пользовательские реакции, свежесть и ручные правила. Низкую уверенность лучше отправлять на moderation или fallback на проверенный editorial photo.
Типичные ошибки
- Выбирать фото только по CLIP score.
- Не учитывать freshness и неверную привязку фото к объекту.
- Не иметь fallback для низкой уверенности.
Как сказать на собеседовании
- Раздели relevance, quality и trust.
- Упомяни human moderation для спорных случаев.
Пайплайн OCR для вывесок
На фото есть вывеска организации. Как построить pipeline, который извлекает текст и использует его в продукте?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Сначала детектируем и выравниваем кроп вывески, затем OCR, нормализация текста, confidence, fuzzy matching с организациями и human review для низкой уверенности.
Подробный разбор
Pipeline обычно состоит из detection/segmentation вывески, crop/rectification, OCR, нормализации текста и матчинга. Нормализация включает регистр, пунктуацию, транслитерацию, юридические формы, опечатки и aliases.
Для матчинга с организацией нельзя полагаться только на текст. Нужны координаты фото, candidate radius, known organization names, рубрики, логотипы и возможно visual similarity. Результат должен иметь confidence и причины, чтобы низкую уверенность отправлять на проверку.
В production важны batch/offline пересчет, версионирование модели, мониторинг качества OCR по типам вывесок и защита от неверного переименования организаций.
Типичные ошибки
- Думать, что OCR text сам по себе является названием организации.
- Не использовать геокоординаты и candidate set.
- Не иметь confidence/fallback.
Как сказать на собеседовании
- Раздели OCR и entity matching.
- Назови crop/rectification и fuzzy matching.
OCR и geo entity matching
OCR распознал текст на вывеске. Как понять, какой организации он соответствует, и когда результат можно публиковать?
Сначала проговорите ответ вслух или тезисами.
Формулы, план решения, риски и примеры.
Откройте разбор только после своей попытки.
Показать разбор
Короткий ответ
Нужно матчить OCR text не глобально, а среди nearby candidates с учетом координат, рубрики, aliases, fuzzy score и confidence.
Подробный разбор
После OCR строим candidate set по геолокации фото: организации рядом, видимость фасада, рубрика и уже известные названия/aliases. Текст нормализуется: регистр, пунктуация, транслитерация, юридические формы, частичные совпадения и опечатки.
Дальше считаем score: fuzzy text similarity, расстояние, рубрика, история пользовательских фото, возможно visual/logo signals. Публиковать автоматически стоит только при высокой уверенности и отсутствии конфликтующих кандидатов. Если рядом несколько похожих организаций или OCR прочитал короткий/шумный текст, нужен human review или безопасный fallback.
Типичные ошибки
- Матчить OCR ко всей базе без гео-кандидатов.
- Игнорировать короткие и шумные строки.
- Автоматически менять карточку без confidence threshold.
Как сказать на собеседовании
- Скажи "nearby candidate set".
- Обязательно добавь confidence threshold и review.