К реальным собесам
Реальный собесHuawei2026-04-23

Huawei LLM Engineer: inference optimization и vector search

Англоязычный technical deep dive по LLM serving: KV cache, speculative decoding, FlashAttention, quantization и distributed vector retrieval.

Таймлайн собеседования

Сначала список вопросов и задач по ходу записи. Условие или вопрос можно раскрыть отдельно; решение и разбор спрятаны в отдельной плашке.

00:04:44-00:06:10MLSD кейсconfidence: medium

Как думать про distributed vector search

vector searchANNdistributed systems
YouTube с таймкода
00:17:58-00:18:25Вопросconfidence: high

Что такое KV cache в LLM inference

LLM servingKV cachelatency
YouTube с таймкода
00:23:16-00:24:10Вопросconfidence: high

Как работает speculative decoding и acceptance ratio

LLM servingspeculative decodingdraft model
YouTube с таймкода
00:26:36-00:27:05Вопросconfidence: high

Что знать про FlashAttention на LLM-интервью

LLM servingFlashAttentionGPU optimization
YouTube с таймкода

Выводы и как готовиться

  • В LLM serving важно говорить не только про модель, но и про prefill/decode, память, batching, latency и throughput.
  • Speculative decoding нужно объяснять через draft model, target model и acceptance ratio.
  • Vector search лучше начинать с требований: corpus size, QPS, latency, recall и freshness.