Назад к подготовке

Какие признаки дать поисковому реранкеру

После retrieval есть набор кандидатов. Какие признаки использовать для реранжирования и что можно считать заранее?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Признаки: lexical score, embedding similarity, query-document cross features, свежесть, источник, права, популярность, прошлые клики, качество документа, длина, language match. Тяжелые document features лучше считать offline.

Полный разбор

Реранкер получает кандидатов от retrieval и может использовать признаки из разных слоев. Retrieval scores: BM25, vector similarity, position in each source. Query-document features: совпадение важных терминов, entity match, category/source match, свежесть, language, document type, section title, chunk position.

Документные признаки лучше считать offline: качество документа, владелец, дата обновления, популярность, исторические клики, embedding, безопасность. Online можно добавить признаки запроса и пользователя: роль, права доступа, текущий продукт, язык, последние действия.

Если используется neural reranker, он дороже, поэтому его запускают на ограниченном top-N. Для надежности нужен fallback: если реранкер не ответил, выдаем результат retrieval с простыми правилами.

Теория

Реранкер превращает широкий recall от retrieval в качественный порядок, используя более дорогие cross-сигналы.

Типичные ошибки

  • Считать тяжелые document features на каждый запрос.
  • Игнорировать permissions как часть ранжирования.
  • Не иметь fallback при ошибке реранкера.