Назад к подготовке

ВопросСложнаяllm-servingВопрос про production ML на техническом собеседовании · Samsung

Адаптивная маршрутизация LLM-запросов по GPU

В LLM-инференсе есть несколько GPU-воркеров. Почему наивная round-robin маршрутизация может быть неэффективной, и как спроектировать адаптивный слой маршрутизации с учетом загрузки GPU, KV cache и длины запроса?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Round-robin не учитывает разную длину запросов, prefill/decode нагрузку, память под KV cache и возможность переиспользовать уже прогретый cache. Лучше поставить scheduler перед GPU workers: он смотрит на очередь, свободную KV-cache memory, compute utilization, prefix/session affinity и route-ит запрос туда, где expected latency минимальна.

Полный разбор

Теория

LLM inference состоит из prefill и decode фаз с разными bottleneck. Prefill чаще compute-heavy, decode часто memory-bandwidth/KV-cache sensitive. Поэтому routing должен учитывать не только количество запросов, но и фазу, длину контекста, cache locality и memory headroom.

Типичные ошибки

Предложить обычный round-robin или least-connections без учета длины контекста и decode phase.
Игнорировать KV cache как основной источник memory pressure и возможного reuse.
Оптимизировать только throughput и не смотреть p95/p99 latency, OOM и fairness.

Как отвечать на собеседовании

Сначала объясни, почему запросы в LLM serving неодинаковые: prompt length, generation length, prefill/decode.
Назови конкретные runtime-сигналы scheduler-а: queue length, KV-cache memory, GPU utilization, cache affinity.
Заверши метриками: TTFT, p95 latency, tokens/sec, cache hit rate, OOM rate.