К тренажеру
ВопросMediummlsd-recsysРеальный собес

Какие признаки использовать для модели цены объявления

Нужно построить модель для оценки или подсказки цены second-hand объявления в marketplace. Какие признаки и baseline стоит предложить?

Короткий ответ

Baseline: медиана/квантили цены по категории, бренду, модели, региону и состоянию. Фичи: attributes listing, seller history, location, photos quality, text/title embeddings, demand/supply и recent comparable listings.

Полный разбор

Начать можно с простого comparable baseline: похожие объявления в той же категории/бренде/модели/регионе, медиана или квантили цены, поправка на состояние и age. Это объяснимо и быстро дает sanity check.

Признаки listing: категория, бренд, модель, год, состояние, описание, title, характеристики, фото, качество фото, наличие дефектов, цена доставки, location. Seller features: тип продавца, история продаж, рейтинг, скорость ответа, доля успешных сделок. Market features: количество похожих объявлений, спрос, сезонность, средняя цена по региону, time-to-sell.

Модель: CatBoost/LightGBM по табличным признакам, плюс text/image embeddings как дополнительные признаки. Для pricing полезны не только точечный прогноз, но и диапазон: low/fair/high, quantile regression или confidence interval.

Теория

Pricing в marketplace часто решается как табличный supervised ML + comparable items baseline. Бизнесу обычно нужна интерпретируемость и диапазон, а не только MSE.

Типичные ошибки

  • Сразу предлагать deep learning без comparable baseline.
  • Не учитывать регион, состояние товара и seller features.
  • Давать одну цену без uncertainty/диапазона.

Как отвечать на собеседовании

  • Сначала предложи медиану по похожим объявлениям.
  • Разбей признаки на listing, seller, market и multimodal.