A/B-тесты рекомендательной модели
Как проводить offline и online эксперименты для рекомендательной модели? Что важно в A/B-тесте: MDE, p-value, выборка, сетевые эффекты и метрики?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Offline experiment проверяет модель на historical data, но online A/B нужен для продуктового эффекта. До запуска фиксируют primary metric, guardrails, MDE, alpha/power, duration и traffic split; после запуска смотрят статистическую значимость, сегменты и возможные interference/network effects.
Полный разбор
Offline эксперимент полезен для быстрой фильтрации моделей: метрики ranking/retrieval, regression set, latency и cost. Но он не доказывает продуктовый эффект, потому что historical logs собраны старой policy. Для новой рекомендации нужен online A/B или аккуратный rollout.
Перед A/B фиксируют гипотезу, primary metric, guardrails, MDE, alpha, power, traffic split, duration и правила остановки. MDE нужен, чтобы понять, какой минимальный эффект реально обнаружить при доступном трафике и дисперсии. p-value сам по себе не отвечает на вопрос бизнес-важности эффекта.
Для social/recsys продуктов важны сетевые эффекты и interference: изменение выдачи одному пользователю может менять поведение другого, supply exposure или creator ecosystem. Поэтому нужны guardrails: retention, complaints/reports, diversity/coverage, latency, match quality, long-term metrics и сегментный анализ.
Теория
A/B-тест проверяет causal effect в продукте; его качество зависит от дизайна эксперимента, мощности и корректности unit of randomization.
Типичные ошибки
- Запустить A/B без заранее заданного MDE и duration.
- Смотреть только p-value и не смотреть effect size.
- Игнорировать network effects в социальном продукте.
Как отвечать на собеседовании
- Назовите MDE, alpha/power и guardrails.
- Для рекомендаций отдельно скажите про exposure, diversity и interference.