Online inference и latency budget в RecSys

Как организовать online inference, если модель рекомендаций тяжелая и должна отвечать в latency budget?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Тяжелый retrieval/precompute выносят offline, online слой читает candidates/features, делает легкий rerank, применяет business rules и имеет fallback.

Полный разбор

Online path должен быть коротким: запрос, чтение готовых candidates, свежих user/context features, легкий rerank, business rules и ответ. Тяжелые embeddings, ANN indices, item features и популярные candidate sets лучше считать batch/streaming заранее. Для reliability нужны timeout, circuit breaker, cache, degraded baseline и мониторинг p50/p95/p99 latency. Если используется GPU inference, добавляются batching, warmup, capacity planning и защита от head-of-line blocking. Качество модели не должно ломать UX при пиках нагрузки.