Top-K near neighbors и recall/latency trade-off

Как строить top-K похожих item и управлять компромиссом между recall, latency и стоимостью?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Item embeddings индексируются в ANN, затем top-K кандидаты фильтруются и rerank-ятся. Recall повышают размером shortlist и настройками индекса, latency контролируют precompute/cache.

Полный разбор

Для похожих item обычно считают embedding каждого item и строят ANN index: HNSW, IVF/PQ или managed vector DB. На запросе берется top-K по cosine/dot-product, затем применяются фильтры: availability, category, price, freshness, business rules и diversity. Recall можно повышать большим candidate pool, точным search, несколькими retrieval источниками и reranking. Цена - latency, память и стоимость обновления индекса. В production полезны offline recall@K на labeled pairs, online guardrails и fallback на популярное/категорийное при пустом или слишком дорогом retrieval.