Какие признаки использовать для модели цены объявления
Нужно построить модель для оценки или подсказки цены second-hand объявления в marketplace. Какие признаки и baseline стоит предложить?
Короткий ответ
Baseline: медиана/квантили цены по категории, бренду, модели, региону и состоянию. Фичи: attributes listing, seller history, location, photos quality, text/title embeddings, demand/supply и recent comparable listings.
Полный разбор
Начать можно с простого comparable baseline: похожие объявления в той же категории/бренде/модели/регионе, медиана или квантили цены, поправка на состояние и age. Это объяснимо и быстро дает sanity check.
Признаки listing: категория, бренд, модель, год, состояние, описание, title, характеристики, фото, качество фото, наличие дефектов, цена доставки, location. Seller features: тип продавца, история продаж, рейтинг, скорость ответа, доля успешных сделок. Market features: количество похожих объявлений, спрос, сезонность, средняя цена по региону, time-to-sell.
Модель: CatBoost/LightGBM по табличным признакам, плюс text/image embeddings как дополнительные признаки. Для pricing полезны не только точечный прогноз, но и диапазон: low/fair/high, quantile regression или confidence interval.
Теория
Pricing в marketplace часто решается как табличный supervised ML + comparable items baseline. Бизнесу обычно нужна интерпретируемость и диапазон, а не только MSE.
Типичные ошибки
- Сразу предлагать deep learning без comparable baseline.
- Не учитывать регион, состояние товара и seller features.
- Давать одну цену без uncertainty/диапазона.
Как отвечать на собеседовании
- Сначала предложи медиану по похожим объявлениям.
- Разбей признаки на listing, seller, market и multimodal.