Где в Transformer применяется Mixture of Experts
В MoE LLM где обычно находится Mixture of Experts: в каком слое Transformer и зачем это делают?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
В типичных Transformer MoE-архитектурах experts заменяют или дополняют feed-forward/MLP sublayer, а router выбирает top-k экспертов для каждого токена. Attention обычно остается dense.
Полный разбор
В Transformer block обычно есть self-attention sublayer и feed-forward/MLP sublayer. Во многих MoE LLM плотный MLP заменяется несколькими expert MLP и router/gating network. Для каждого токена router выбирает одного или несколько экспертов, и только они вычисляются для этого токена.
Так модель получает большую суммарную емкость параметров, но active compute per token остается ближе к меньшей dense model. Это особенно полезно, потому что FFN/MLP часть занимает большую долю параметров и вычислений Transformer. Эксперты могут специализироваться, а router учится выбирать полезные маршруты для токена и контекста.
Компромиссы: routing balance, communication overhead между устройствами, expert collapse, сложность batching и serving latency. Обычно нужны load-balancing losses и capacity constraints, чтобы router не отправлял все токены одному эксперту.
Теория
MoE - это sparse conditional computation: параметров много, но для каждого токена активна только малая часть.
Типичные ошибки
- По умолчанию помещать MoE внутрь attention heads.
- Говорить, что каждый expert запускается для каждого токена.
- Игнорировать routing/load-balancing проблемы.
Как отвечать на собеседовании
- Сразу скажи "обычно FFN/MLP sublayer" - это напрямую отвечает на уточнение интервьюера.
- Затем объясни зачем: большая parameter capacity без пропорционального роста active FLOPs.