Samsung
Аудиозапись технического собеседованияТехническое собеседование2026-05-26
Samsung LLM Inference Screening: adaptive GPU routing
Короткий screening по роли в LLM inference / speculative decoding: self-introduction, research fit, roadmap thinking и один сильный production-фрагмент про adaptive routing для multi-GPU serving.
Аудио и материалы
Аудио скрининга
0:00 / 30:26
Выводы и как готовиться
- Для LLM serving важно говорить о runtime-состоянии workers: очередь, память под KV cache, prefill/decode нагрузка и tail latency.
- Сильный production answer связывает идею с измеримым эффектом: throughput, p95 latency, TTFT, cache hit rate и OOM risk.
- На research/team-fit вопросах лучше честно отделять proprietary engineering от public publications.
