Назад к подготовке

Категории и признаки каталога для cart RecSys

Какие catalog features нужны для рекомендаций в корзине и какие проблемы бывают с категориями товаров?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Нужны category hierarchy, attributes, brand, price, availability, stock, images/text embeddings, style/material и quality flags. Проблемы: шумные категории, дубли и stale catalog.

Полный разбор

Каталог задает большую часть ограничений для cart recommendations. Полезны category hierarchy, brand, model, material, style, size, color, price, discount, margin, stock, delivery availability, seasonality, text/image embeddings, popularity и quality flags.

Категории часто шумные: разные уровни иерархии, неправильная разметка, дубли SKU, новые товары без атрибутов, устаревший stock и локальные бизнес-исключения. Поэтому pipeline должен иметь validation, default categories, confidence атрибутов и правила для missing values.

Для обучения важно хранить признаки на момент показа. Если использовать текущий каталог для старых impressions, можно получить leakage: товар мог сменить категорию, цену, availability или фото после события.

Теория

Каталог в RecSys является не только набором фичей, но и источником hard constraints, data quality рисков и freshness требований.