К тренажеру
ВопросHardllm-architectureРеальный собес

Как устроены MoE-модели и их inference

Чем Mixture-of-Experts отличается от dense модели, какие преимущества и недостатки, и как устроен router при inference?

Короткий ответ

MoE заменяет часть FFN на набор экспертов и router, который выбирает top-k экспертов для каждого токена. Активных параметров меньше, чем total parameters, но serving сложнее из-за routing, load balancing, memory и distributed communication.

Полный разбор

Dense модель использует одни и те же параметры для каждого токена. В MoE обычно feed-forward блок заменяется несколькими expert FFN. Router получает hidden state токена, считает logits по экспертам и выбирает top-k экспертов. Итоговый output - взвешенная комбинация ответов выбранных экспертов.

Плюс: можно иметь огромное общее число параметров, но активировать только малую часть на токен, получая хорошее качество при умеренном FLOPs/token. Минусы: сложное обучение, load balancing, expert collapse, коммуникация между устройствами, сложный batching и необходимость держать экспертов в памяти.

При inference важно помнить: FLOPs могут быть ниже dense модели того же total size, но memory footprint и distributed routing могут быть сложнее. Разные токены batch могут уходить к разным экспертам.

Теория

MoE масштабирует capacity модели, но усложняет systems side. Поэтому вопрос часто проверяет не только знание архитектуры, но и понимание production inference.

Типичные ошибки

  • Сказать, что MoE всегда быстрее dense без оговорок.
  • Не объяснить router как top-k classifier по hidden state.
  • Не упомянуть load balancing и expert parallelism.

Как отвечать на собеседовании

  • Раздели total parameters и active parameters.
  • Обязательно скажи про routing per token и top-k experts.