Cache и latency в рекомендательной системе
Как проектировать caching и latency budget для recommendation API?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Кэшируются item features, embeddings, popular candidates и precomputed user/item lists. Online слой делает только быстрый rerank и должен иметь fallback.
Полный разбор
Кэшировать можно несколько уровней: item features и embeddings, ANN results, популярные кандидаты по сегменту, персональные top-N, результаты тяжелого retrieval и availability. TTL зависит от freshness требований: цена и наличие обновляются чаще, статические признаки реже.
Latency budget делится между backend, feature reads, model inference и post-processing. Для p95/p99 нужны timeout, circuit breaker, degraded baseline и warm cache. Кэш не должен нарушать бизнес-правила: availability, удаленные объявления и privacy constraints проверяются ближе к выдаче.