Назад к подготовке

ВопросСредняяrecommender-systemsML System Design из фидбека после собеседования · T-Bank T-Bank

Переранжирование и разнообразие в fashion-рекомендациях item-to-item

Fashion item-to-item рекомендации возвращают много почти одинаковых вещей. Как разделить ответственность retrieval, ranking и reranking, чтобы сохранить релевантность и добавить разнообразие?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Retrieval должен отвечать за recall, ранкер - за релевантность и бизнес-сигналы, а финальный reranking - за явные list-level ограничения: coverage категорий, штраф за дубликаты, MMR или похожие правила.

Полный разбор

Начните с разделения стадий. Retrieval-модель находит совместимые кандидаты по embeddings или атрибутным фильтрам. Ранкер сортирует их по предсказанной релевантности или бизнес-ценности. Финальный слой reranking уже навешивает ограничения, которые неудобно учить pointwise-моделью: не показывать много почти одинаковых вещей, сохранять баланс категорий и выполнять продуктовые правила. Для diversity сначала определите, что именно должно быть разнообразным. В fashion это могут быть категории в образе, цвета, бренды, ценовые сегменты или визуальная похожесть. Практические методы: штрафовать кандидатов, слишком близких к уже выбранным; использовать MMR; выбирать из category buckets; добавлять coverage constraints; обучать ранкер с diversity-aware признаками. Оценивайте и релевантность, и качество списка. Candidate recall@K и NDCG недостаточно, если финальная выдача выглядит повторяющейся. Добавьте coverage, category entropy, intra-list similarity, serendipity или доменную метрику полноты образа, а затем проверьте online через бизнес-метрики и guardrails.

Теория

Reranking - это место, где в рекомендательную систему входят ограничения на весь список: лучший individual score не всегда дает лучший финальный список.

Типичные ошибки

Считать reranking еще одним pointwise-классификатором.
Мерить только recall и игнорировать почти одинаковые повторы.
Определять diversity без связи с продуктовой семантикой.
Пытаться засунуть все бизнес-правила в retrieval-модель.

Как отвечать на собеседовании

Назовите один конкретный метод reranking и одну diversity-метрику.
Объясните, почему retrieval, ranking и reranking оптимизируют разные цели.