Online inference и latency budget в RecSys
Как организовать online inference, если модель рекомендаций тяжелая и должна отвечать в latency budget?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Тяжелый retrieval/precompute выносят offline, online слой читает candidates/features, делает легкий rerank, применяет business rules и имеет fallback.
Полный разбор
Online path должен быть коротким: запрос, чтение готовых candidates, свежих user/context features, легкий rerank, business rules и ответ. Тяжелые embeddings, ANN indices, item features и популярные candidate sets лучше считать batch/streaming заранее.
Для reliability нужны timeout, circuit breaker, cache, degraded baseline и мониторинг p50/p95/p99 latency. Если используется GPU inference, добавляются batching, warmup, capacity planning и защита от head-of-line blocking. Качество модели не должно ломать UX при пиках нагрузки.