Какие внешние сигналы брать для более качественного прогноза
Если не смотреть только на продуктовые события внутри приложения, какие сигналы стоит получить у стейкхолдеров, чтобы улучшить прогноз или рекомендационную систему?
Короткий ответ
Нужно искать контекст до и вне продукта: канал привлечения, кампанию, регион, устройство, сезонность, календарь, цены, промо, наличие товара, ограничения supply и бизнес-сегменты пользователей.
Полный разбор
Ответ лучше строить от цели прогноза. Если нужно прогнозировать конверсию, заказ, retention или релевантность рекомендации, продуктовых событий часто мало: они описывают поведение уже внутри продукта, но не объясняют источник и контекст пользователя.
Полезные группы сигналов: маркетинговый канал и кампания, landing page, поисковый запрос, регион и геозона, устройство, время, день недели, праздники, погода, сезонность, цены, промо, наличие товара или ресторана, SLA доставки, сегмент пользователя, история коммуникаций, внешние события и ограничения supply.
Отдельно стоит проговорить data quality: доступность этих сигналов online, задержки, пропуски, стабильность схемы, права доступа и риск leakage. Не все внешние признаки можно использовать в момент предсказания.
Теория
Это проверка feature discovery. В RecSys и прогнозировании сильный кандидат не ограничивается clickstream, а умеет разговаривать с маркетингом, продуктом, логистикой и операциями, чтобы найти причинно близкие признаки.
Типичные ошибки
- Перечислить только клики, просмотры и покупки.
- Не проверить, доступны ли признаки в момент инференса.
- Не отделить полезный контекст от leakage из будущего.
Как отвечать на собеседовании
- Группируй признаки: acquisition, user context, item/context, supply, calendar, business actions.
- После списка признаков сразу скажи про leakage и online availability.