Monitoring и audit для рекомендаций

Какие логи, метрики и алерты нужны после запуска рекомендательной модели?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Логируются request, candidates, features, scores, model version и outcome. Мониторятся latency, ошибки, фичи, drift, coverage, business metrics и fallback rate.

Полный разбор

Для audit нужны request id, user/context, candidate ids, features или feature version, model version, scores, final rank, filtered reasons и downstream events. Без этих логов невозможно объяснить, почему объект был показан, и повторить offline разбор. Мониторинг делится на system metrics, data/model metrics и product metrics. System: latency, error rate, timeouts. Data: missing features, distribution drift, stale embeddings. Model/product: CTR/conversion, coverage, diversity, complaints, fallback rate и slice-деградации. Алерты должны уметь быстро переводить систему на baseline.