Top-K near neighbors и recall/latency trade-off
Как строить top-K похожих item и управлять компромиссом между recall, latency и стоимостью?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Item embeddings индексируются в ANN, затем top-K кандидаты фильтруются и rerank-ятся. Recall повышают размером shortlist и настройками индекса, latency контролируют precompute/cache.
Полный разбор
Для похожих item обычно считают embedding каждого item и строят ANN index: HNSW, IVF/PQ или managed vector DB. На запросе берется top-K по cosine/dot-product, затем применяются фильтры: availability, category, price, freshness, business rules и diversity.
Recall можно повышать большим candidate pool, точным search, несколькими retrieval источниками и reranking. Цена - latency, память и стоимость обновления индекса. В production полезны offline recall@K на labeled pairs, online guardrails и fallback на популярное/категорийное при пустом или слишком дорогом retrieval.