Следующий шаг после feature selection

После набора признаков для marketplace pricing/recommendation модели что делать дальше: target, split, baseline, модель и критерий запуска?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Дальше фиксируются row definition, target, time-based split, simple baseline, candidate model, offline metrics, slice analysis и launch criteria для online test.

Полный разбор

Список признаков не является готовой ML системой. Следующий шаг - определить единицу строки: listing at publish time, listing update, user-listing impression или session. Затем выбирается target: fair price, sale/contact probability, time-to-sell, seller acceptance or ranking relevance. Baseline должен быть простым и проверяемым: comparable median по категории/региону для pricing, popular/category/rules для carousel, логистическая регрессия или GBDT для response. Split лучше делать по времени, с as-of feature computation и проверкой leakage. Перед запуском нужны offline metrics, slice analysis по категориям/регионам/new sellers, calibration, latency/cost estimate, monitoring plan и критерии перехода в A/B. Модельный score без decision policy и rollout plan не готов к продукту.

Feature selection - середина pipeline. Production ML требует target definition, validation protocol, baseline and deployment criteria.