Какие признаки дать поисковому реранкеру
После retrieval есть набор кандидатов. Какие признаки использовать для реранжирования и что можно считать заранее?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Признаки: lexical score, embedding similarity, query-document cross features, свежесть, источник, права, популярность, прошлые клики, качество документа, длина, language match. Тяжелые document features лучше считать offline.
Полный разбор
Реранкер получает кандидатов от retrieval и может использовать признаки из разных слоев. Retrieval scores: BM25, vector similarity, position in each source. Query-document features: совпадение важных терминов, entity match, category/source match, свежесть, language, document type, section title, chunk position.
Документные признаки лучше считать offline: качество документа, владелец, дата обновления, популярность, исторические клики, embedding, безопасность. Online можно добавить признаки запроса и пользователя: роль, права доступа, текущий продукт, язык, последние действия.
Если используется neural reranker, он дороже, поэтому его запускают на ограниченном top-N. Для надежности нужен fallback: если реранкер не ответил, выдаем результат retrieval с простыми правилами.
Теория
Реранкер превращает широкий recall от retrieval в качественный порядок, используя более дорогие cross-сигналы.
Типичные ошибки
- Считать тяжелые document features на каждый запрос.
- Игнорировать permissions как часть ранжирования.
- Не иметь fallback при ошибке реранкера.