Cache и latency в рекомендательной системе

Как проектировать caching и latency budget для recommendation API?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Кэшируются item features, embeddings, popular candidates и precomputed user/item lists. Online слой делает только быстрый rerank и должен иметь fallback.

Полный разбор

Кэшировать можно несколько уровней: item features и embeddings, ANN results, популярные кандидаты по сегменту, персональные top-N, результаты тяжелого retrieval и availability. TTL зависит от freshness требований: цена и наличие обновляются чаще, статические признаки реже. Latency budget делится между backend, feature reads, model inference и post-processing. Для p95/p99 нужны timeout, circuit breaker, degraded baseline и warm cache. Кэш не должен нарушать бизнес-правила: availability, удаленные объявления и privacy constraints проверяются ближе к выдаче.