Реальный собесHuawei2026-05-08

Huawei Technical: LLM inference, алгоритмы и VLM

Техническое собеседование в команду оптимизации inference больших языковых и мультимодальных моделей: опыт serving, две кодовые задачи, logloss и глубокий блок по архитектуре LLM.

Таймлайн собеседования

Компактный список вопросов и задач по ходу записи: раскрывайте только нужные детали.

00:00:57-00:02:53Вопрос

Вопрос

Команда Huawei: оптимизация inference LLM на Ascend

00:05:33-00:06:51Вопрос

Вопрос

Опыт оптимизации LLM inference pipeline

00:07:02-00:08:15Вопрос

Вопрос

Текущая работа: качество, RAG и продуктовые сценарии

00:10:16-00:14:43Код

Код

Подготовка Colab и постановка кодовой части

00:15:03-00:22:06Код

Код

Оценить и ускорить рекурсивную функцию с тремя вызовами

00:22:12-00:23:56Код

Код

Follow-up: считать рекурренту быстрее чем за O(n)

00:25:06-00:34:38Код

Код

NumPy: заполнить матрицу в шахматном порядке

00:36:31-00:40:40Вопрос

Вопрос

Logloss и оптимальная константная вероятность

00:40:43-00:41:55Вопрос

Вопрос

Насколько глубоко нужно знать архитектуру LLM

00:42:00-00:43:40Вопрос

Вопрос

Зачем нужны positional embeddings

00:43:48-00:44:36Вопрос

Вопрос

Prefill и decode стадии в LLM inference

00:44:44-00:48:16Вопрос

Вопрос

Temperature scaling и sampling из softmax

00:48:51-00:51:30Вопрос

Вопрос

KV cache: механизм и оценка памяти

00:51:33-00:55:04Вопрос

Вопрос

Attention heads, MQA, GQA и DeepSeek MLA

00:55:10-00:58:40Вопрос

Вопрос

MoE-архитектуры, inference и router

00:59:00-01:01:08Вопрос

Вопрос

Speculative decoding и EAGLE

01:01:54-01:03:44Вопрос

Вопрос

Как VLM обрабатывает картинку вместе с текстом

Выводы и как готовиться

В LLM serving важно разделять prefill/decode, TTFT/tokens-per-second и memory footprint KV cache.
Алгоритмические задачи проверяли не только код, но и асимптотику: рекурренту, динамику, matrix exponentiation и NumPy vectorization.
Для архитектурных вопросов полезно связывать теорию attention/MoE/VLM с практическими ограничениями inference.