Назад к подготовке

ВопросСредняяllm-architectureТехническое собеседование · Toloka AI

Где в Transformer применяется Mixture of Experts

В MoE LLM где обычно находится Mixture of Experts: в каком слое Transformer и зачем это делают?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

В типичных Transformer MoE-архитектурах experts заменяют или дополняют feed-forward/MLP sublayer, а router выбирает top-k экспертов для каждого токена. Attention обычно остается dense.

Полный разбор

В Transformer block обычно есть self-attention sublayer и feed-forward/MLP sublayer. Во многих MoE LLM плотный MLP заменяется несколькими expert MLP и router/gating network. Для каждого токена router выбирает одного или несколько экспертов, и только они вычисляются для этого токена. Так модель получает большую суммарную емкость параметров, но active compute per token остается ближе к меньшей dense model. Это особенно полезно, потому что FFN/MLP часть занимает большую долю параметров и вычислений Transformer. Эксперты могут специализироваться, а router учится выбирать полезные маршруты для токена и контекста. Компромиссы: routing balance, communication overhead между устройствами, expert collapse, сложность batching и serving latency. Обычно нужны load-balancing losses и capacity constraints, чтобы router не отправлял все токены одному эксперту.

Теория

MoE - это sparse conditional computation: параметров много, но для каждого токена активна только малая часть.

Типичные ошибки

По умолчанию помещать MoE внутрь attention heads.
Говорить, что каждый expert запускается для каждого токена.
Игнорировать routing/load-balancing проблемы.

Как отвечать на собеседовании

Сразу скажи "обычно FFN/MLP sublayer" - это напрямую отвечает на уточнение интервьюера.
Затем объясни зачем: большая parameter capacity без пропорционального роста active FLOPs.