Категории и признаки каталога для cart RecSys
Какие catalog features нужны для рекомендаций в корзине и какие проблемы бывают с категориями товаров?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Нужны category hierarchy, attributes, brand, price, availability, stock, images/text embeddings, style/material и quality flags. Проблемы: шумные категории, дубли и stale catalog.
Полный разбор
Каталог задает большую часть ограничений для cart recommendations. Полезны category hierarchy, brand, model, material, style, size, color, price, discount, margin, stock, delivery availability, seasonality, text/image embeddings, popularity и quality flags.
Категории часто шумные: разные уровни иерархии, неправильная разметка, дубли SKU, новые товары без атрибутов, устаревший stock и локальные бизнес-исключения. Поэтому pipeline должен иметь validation, default categories, confidence атрибутов и правила для missing values.
Для обучения важно хранить признаки на момент показа. Если использовать текущий каталог для старых impressions, можно получить leakage: товар мог сменить категорию, цену, availability или фото после события.
Теория
Каталог в RecSys является не только набором фичей, но и источником hard constraints, data quality рисков и freshness требований.