Зачем нужны positional embeddings в Transformer
Для чего нужны positional embeddings и какие виды positional embeddings используются в LLM?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Self-attention без позиционного сигнала permutation-equivariant: при перестановке токенов переставятся и выходы. Поэтому модели нужен явный сигнал о порядке: learned/sinusoidal positions, relative bias, RoPE или ALiBi.
Полный разбор
Без позиционной информации Transformer сравнивает content-векторы, но не получает отдельного признака "первый", "следующий" или "далеко справа". Если одновременно переставить входные токены, attention переставит выходы тем же образом, поэтому одного content-attention недостаточно для языка.
Основные варианты: learned absolute positional embeddings, синусоидальные absolute embeddings, relative position bias, RoPE и ALiBi. В современных LLM часто встречается RoPE: позиция кодируется вращением query/key векторов, что удобно для relative distances и extrapolation к более длинному context при аккуратной настройке.
Важно отделять positional signal от causal mask. Causal mask задает видимость слева направо, но сам по себе не сообщает модели точную дистанцию и абсолютную/относительную позицию токенов.
Теория
Позиционная схема - часть inductive bias модели. Она влияет на способность работать с длинным контекстом, extrapolation и стабильность attention.
Типичные ошибки
- Сказать, что порядок уже есть в последовательной подаче токенов.
- Назвать только learned embeddings и не вспомнить RoPE.
- Не объяснить, почему self-attention без позиции не различает порядок.
Как отвечать на собеседовании
- Начни с permutation-invariance self-attention.
- Назови 2-3 современных варианта: RoPE, ALiBi, relative bias.