Как устроены MoE-модели и их inference
Чем Mixture-of-Experts отличается от dense модели, какие преимущества и недостатки, и как устроен router при inference?
Короткий ответ
MoE заменяет часть FFN на набор экспертов и router, который выбирает top-k экспертов для каждого токена. Активных параметров меньше, чем total parameters, но serving сложнее из-за routing, load balancing, memory и distributed communication.
Полный разбор
Dense модель использует одни и те же параметры для каждого токена. В MoE обычно feed-forward блок заменяется несколькими expert FFN. Router получает hidden state токена, считает logits по экспертам и выбирает top-k экспертов. Итоговый output - взвешенная комбинация ответов выбранных экспертов.
Плюс: можно иметь огромное общее число параметров, но активировать только малую часть на токен, получая хорошее качество при умеренном FLOPs/token. Минусы: сложное обучение, load balancing, expert collapse, коммуникация между устройствами, сложный batching и необходимость держать экспертов в памяти.
При inference важно помнить: FLOPs могут быть ниже dense модели того же total size, но memory footprint и distributed routing могут быть сложнее. Разные токены batch могут уходить к разным экспертам.
Теория
MoE масштабирует capacity модели, но усложняет systems side. Поэтому вопрос часто проверяет не только знание архитектуры, но и понимание production inference.
Типичные ошибки
- Сказать, что MoE всегда быстрее dense без оговорок.
- Не объяснить router как top-k classifier по hidden state.
- Не упомянуть load balancing и expert parallelism.
Как отвечать на собеседовании
- Раздели total parameters и active parameters.
- Обязательно скажи про routing per token и top-k experts.