Samsung LLM Inference Screening: adaptive GPU routing

Короткий screening по роли в LLM inference / speculative decoding: self-introduction, research fit, roadmap thinking и один сильный production-фрагмент про adaptive routing для multi-GPU serving.

Пройти собеседование

Аудио и материалы

Аудио скрининга

0:00 / 30:26

Выводы и как готовиться

Для LLM serving важно говорить о runtime-состоянии workers: очередь, память под KV cache, prefill/decode нагрузка и tail latency.
Сильный production answer связывает идею с измеримым эффектом: throughput, p95 latency, TTFT, cache hit rate и OOM risk.
На research/team-fit вопросах лучше честно отделять proprietary engineering от public publications.

Samsung LLM Inference Screening: adaptive GPU routing

Аудио и материалы

Аудио скрининга

Self-introduction, research fit и опыт production LLM

Адаптивная маршрутизация LLM-запросов по GPU

Team roadmap, customer goals и research KPI

Выводы и как готовиться