Какие online-сигналы использовать для обучения reranker

Cross-encoder или learning-to-rank reranker можно обучать не только на ручной разметке. Какие online-сигналы полезны для поиска по статьям?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Полезны clicks, dwell time, reformulations, final solved article, skips, support escalation и explicit feedback. Их нужно дебайсить от позиции, интерфейса и популярности статьи.

Полный разбор

Online-сигналы дают дешевые labels, но они смещены. Клик по верхнему результату зависит от позиции. Длинное чтение может означать пользу или сложность текста. Повторный запрос может означать, что статья не помогла, но иногда пользователь просто уточнил тему. Для reranker полезны пары и списки: пользователь выбрал статью A вместо B, открыл несколько результатов и остановился на одном, поставил positive feedback, не ушел в поддержку, не переформулировал запрос. Negative signals: быстрый bounce, skip результата, повторный query с тем же intent, жалоба, escalation. Перед обучением эти события агрегируются с учетом позиции, query frequency, типа устройства и freshness статьи. Ручная разметка остается нужна как clean validation set, чтобы implicit feedback не закрепил bias старой выдачи.

Implicit feedback полезен для ranking, но его нельзя считать чистой релевантностью. Position bias и старый ranker влияют на то, что пользователь увидел и выбрал.