Назад к подготовке
Huawei
Аудиозапись технического собеседованияТехническое собеседование2026-04-23

Huawei: Техническое собеседование

Обсуждение KV cache, speculative decoding, FlashAttention, quantization и distributed vector поиск.

Аудио и материалы

Аудио собеседования

0:00 / 35:37

Этап 1 из 2HuaweiLLM Engineer2026-04-23 - 2026-05-08
Собеседование в Huawei: LLM serving

Техническое собеседование в Huawei

Выводы и как готовиться

  • В LLM serving важно говорить не только про модель, но и про prefill/decode, память, batching, latency и throughput.
  • Speculative decoding нужно объяснять через draft model, target model и acceptance ratio.
  • векторный поиск лучше начинать с требований: corpus size, QPS, latency, recall и freshness.