Реальный собесHuawei2026-05-08
Huawei Technical: LLM inference, алгоритмы и VLM
Техническое собеседование в команду оптимизации inference больших языковых и мультимодальных моделей: опыт serving, две кодовые задачи, logloss и глубокий блок по архитектуре LLM.
Таймлайн собеседования
Компактный список вопросов и задач по ходу записи: раскрывайте только нужные детали.
00:00:57-00:02:53Вопрос
ВопросКоманда Huawei: оптимизация inference LLM на Ascend
00:05:33-00:06:51Вопрос
ВопросОпыт оптимизации LLM inference pipeline
00:07:02-00:08:15Вопрос
ВопросТекущая работа: качество, RAG и продуктовые сценарии
00:10:16-00:14:43Код
КодПодготовка Colab и постановка кодовой части
00:15:03-00:22:06Код
КодОценить и ускорить рекурсивную функцию с тремя вызовами
00:22:12-00:23:56Код
КодFollow-up: считать рекурренту быстрее чем за O(n)
00:25:06-00:34:38Код
КодNumPy: заполнить матрицу в шахматном порядке
00:36:31-00:40:40Вопрос
ВопросLogloss и оптимальная константная вероятность
00:40:43-00:41:55Вопрос
ВопросНасколько глубоко нужно знать архитектуру LLM
00:42:00-00:43:40Вопрос
ВопросЗачем нужны positional embeddings
00:43:48-00:44:36Вопрос
ВопросPrefill и decode стадии в LLM inference
00:44:44-00:48:16Вопрос
ВопросTemperature scaling и sampling из softmax
00:48:51-00:51:30Вопрос
ВопросKV cache: механизм и оценка памяти
00:51:33-00:55:04Вопрос
ВопросAttention heads, MQA, GQA и DeepSeek MLA
00:55:10-00:58:40Вопрос
ВопросMoE-архитектуры, inference и router
00:59:00-01:01:08Вопрос
ВопросSpeculative decoding и EAGLE
01:01:54-01:03:44Вопрос
ВопросКак VLM обрабатывает картинку вместе с текстом
Выводы и как готовиться
- В LLM serving важно разделять prefill/decode, TTFT/tokens-per-second и memory footprint KV cache.
- Алгоритмические задачи проверяли не только код, но и асимптотику: рекурренту, динамику, matrix exponentiation и NumPy vectorization.
- Для архитектурных вопросов полезно связывать теорию attention/MoE/VLM с практическими ограничениями inference.