Как добавить reranker и мониторить деградацию retrieval
После ANN retrieval нужно улучшить качество выдачи и понять, когда система деградирует. Как спроектировать reranker, evaluation и monitoring?
Короткий ответ
Reranker берет top-K кандидатов, query, segment embedding, perception metadata и temporal features. Оцениваем nDCG/Recall@K/MRR на labeled queries, мониторим score distributions, embedding drift, zero-result rate и human feedback.
Полный разбор
Reranker можно сделать как learning-to-rank модель поверх кандидатов: query embedding, segment embedding, similarity scores, perception tags, object counts, weather/time, scenario metadata, temporal features, freshness и quality flags. Более дорогой вариант - cross-encoder/multimodal model для top-50/top-100.
Offline evaluation: curated query set, релевантные clips, nDCG@K, Recall@K, Precision@K, MRR, coverage редких сценариев. Для safety/search задач полезны slice metrics: ночь, дождь, пешеходы, перекрестки, редкие дорожные условия.
Monitoring: распределение query и retrieval scores, embedding drift, доля пустых результатов, latency, index freshness, версии encoder/reranker, human feedback по top-K. Drift сам по себе не доказывает деградацию, но это сигнал для ревью и переоценки на свежем labeled set.
Теория
Retrieval monitoring сочетает ML-метрики, search-product сигналы и data quality. Для multimodal search важно следить не только за моделью, но и за индексом.
Типичные ошибки
- Не отделить retrieval metrics от latency/index freshness.
- Считать drift единственной метрикой качества.
- Не оценивать редкие safety-critical slices.
Как отвечать на собеседовании
- Опиши reranker features и expensive top-K reranking.
- Для мониторинга назови score drift, embedding drift, zero-result rate и human feedback.