Зачем нужны positional embeddings в Transformer
Для чего нужны positional embeddings и какие виды positional embeddings используются в LLM?
Короткий ответ
Self-attention сам по себе permutation-invariant, поэтому модели нужен сигнал о порядке токенов. Используют learned absolute embeddings, sinusoidal embeddings, relative position bias, RoPE и ALiBi.
Полный разбор
Без позиционной информации Transformer видит набор токенов почти как bag of tokens: attention сравнивает content-векторы, но не знает, кто был первым, вторым или рядом. Positional embeddings добавляют в модель информацию о порядке и расстояниях.
Основные варианты: learned absolute positional embeddings, синусоидальные absolute embeddings, relative position bias, RoPE и ALiBi. В современных LLM часто встречается RoPE: позиция кодируется вращением query/key векторов, что удобно для relative distances и extrapolation к более длинному context при аккуратной настройке.
На собеседовании полезно сказать не только "добавляем номер токена", а объяснить, что позиция влияет на attention scores и позволяет модели отличать разные порядки одних и тех же слов.
Теория
Позиционная схема - часть inductive bias модели. Она влияет на способность работать с длинным контекстом, extrapolation и стабильность attention.
Типичные ошибки
- Сказать, что порядок уже есть в последовательной подаче токенов.
- Назвать только learned embeddings и не вспомнить RoPE.
- Не объяснить, почему self-attention без позиции не различает порядок.
Как отвечать на собеседовании
- Начни с permutation-invariance self-attention.
- Назови 2-3 современных варианта: RoPE, ALiBi, relative bias.