Назад к подготовке

A/B-тесты рекомендательной модели

Как проводить offline и online эксперименты для рекомендательной модели? Что важно в A/B-тесте: MDE, p-value, выборка, сетевые эффекты и метрики?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Offline experiment проверяет модель на historical data, но online A/B нужен для продуктового эффекта. До запуска фиксируют primary metric, guardrails, MDE, alpha/power, duration и traffic split; после запуска смотрят статистическую значимость, сегменты и возможные interference/network effects.

Полный разбор

Offline эксперимент полезен для быстрой фильтрации моделей: метрики ranking/retrieval, regression set, latency и cost. Но он не доказывает продуктовый эффект, потому что historical logs собраны старой policy. Для новой рекомендации нужен online A/B или аккуратный rollout.

Перед A/B фиксируют гипотезу, primary metric, guardrails, MDE, alpha, power, traffic split, duration и правила остановки. MDE нужен, чтобы понять, какой минимальный эффект реально обнаружить при доступном трафике и дисперсии. p-value сам по себе не отвечает на вопрос бизнес-важности эффекта.

Для social/recsys продуктов важны сетевые эффекты и interference: изменение выдачи одному пользователю может менять поведение другого, supply exposure или creator ecosystem. Поэтому нужны guardrails: retention, complaints/reports, diversity/coverage, latency, match quality, long-term metrics и сегментный анализ.

Теория

A/B-тест проверяет causal effect в продукте; его качество зависит от дизайна эксперимента, мощности и корректности unit of randomization.

Типичные ошибки

  • Запустить A/B без заранее заданного MDE и duration.
  • Смотреть только p-value и не смотреть effect size.
  • Игнорировать network effects в социальном продукте.

Как отвечать на собеседовании

  • Назовите MDE, alpha/power и guardrails.
  • Для рекомендаций отдельно скажите про exposure, diversity и interference.