Назад к подготовке
Samsung
Аудиозапись технического собеседованияТехническое собеседование2026-05-26

Samsung LLM Inference Screening: adaptive GPU routing

Короткий screening по роли в LLM inference / speculative decoding: self-introduction, research fit, roadmap thinking и один сильный production-фрагмент про adaptive routing для multi-GPU serving.

Аудио и материалы

Аудио скрининга

0:00 / 30:26

Выводы и как готовиться

  • Для LLM serving важно говорить о runtime-состоянии workers: очередь, память под KV cache, prefill/decode нагрузка и tail latency.
  • Сильный production answer связывает идею с измеримым эффектом: throughput, p95 latency, TTFT, cache hit rate и OOM risk.
  • На research/team-fit вопросах лучше честно отделять proprietary engineering от public publications.