Как объяснить MLflow, pipeline и Feature Store в ML-команде
На screening обсуждают стек: MLflow, pipeline, PySpark, Feature Store. Как объяснить, зачем это нужно в production ML?
Короткий ответ
Pipeline воспроизводимо готовит данные и обучает модель, MLflow хранит эксперименты/артефакты, Feature Store синхронизирует offline и online признаки и помогает с freshness.
Полный разбор
Production ML требует повторяемого контура. Pipeline описывает шаги: сбор данных, чистка, расчет признаков, обучение, валидация, публикация артефакта. PySpark часто нужен, если признаки считаются на больших событиях.
MLflow или аналог хранит эксперименты: параметры, метрики, версии датасетов, model artifacts, кто и когда обучил модель. Это помогает сравнивать версии и откатываться.
Feature Store решает проблему признаков: единое место, где считаются и версионируются признаки для обучения и serving. Особенно важно не получить training-serving skew, когда offline модель обучалась на одних признаках, а online получает другие или устаревшие.
Теория
MLOps-инфра нужна не ради модных инструментов, а ради воспроизводимости, свежести признаков и надежного rollout модели.
Типичные ошибки
- Перечислить инструменты без объяснения, какую проблему они решают.
- Не упомянуть training-serving skew.
- Забыть про версионирование данных и моделей.
Как отвечать на собеседовании
- Для каждого инструмента скажи одну решаемую проблему.
- Свяжи Feature Store со свежестью и консистентностью признаков.