Следующий шаг после feature selection
После набора признаков для marketplace pricing/recommendation модели что делать дальше: target, split, baseline, модель и критерий запуска?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Дальше фиксируются row definition, target, time-based split, simple baseline, candidate model, offline metrics, slice analysis и launch criteria для online test.
Полный разбор
Список признаков не является готовой ML системой. Следующий шаг - определить единицу строки: listing at publish time, listing update, user-listing impression или session. Затем выбирается target: fair price, sale/contact probability, time-to-sell, seller acceptance or ranking relevance.
Baseline должен быть простым и проверяемым: comparable median по категории/региону для pricing, popular/category/rules для carousel, логистическая регрессия или GBDT для response. Split лучше делать по времени, с as-of feature computation и проверкой leakage.
Перед запуском нужны offline metrics, slice analysis по категориям/регионам/new sellers, calibration, latency/cost estimate, monitoring plan и критерии перехода в A/B. Модельный score без decision policy и rollout plan не готов к продукту.
Теория
Feature selection - середина pipeline. Production ML требует target definition, validation protocol, baseline and deployment criteria.