ВопросMediumllm-architectureРеальный собес

Зачем нужны positional embeddings в Transformer

Для чего нужны positional embeddings и какие виды positional embeddings используются в LLM?

Короткий ответ

Self-attention сам по себе permutation-invariant, поэтому модели нужен сигнал о порядке токенов. Используют learned absolute embeddings, sinusoidal embeddings, relative position bias, RoPE и ALiBi.

Полный разбор

Без позиционной информации Transformer видит набор токенов почти как bag of tokens: attention сравнивает content-векторы, но не знает, кто был первым, вторым или рядом. Positional embeddings добавляют в модель информацию о порядке и расстояниях.

Основные варианты: learned absolute positional embeddings, синусоидальные absolute embeddings, relative position bias, RoPE и ALiBi. В современных LLM часто встречается RoPE: позиция кодируется вращением query/key векторов, что удобно для relative distances и extrapolation к более длинному context при аккуратной настройке.

На собеседовании полезно сказать не только "добавляем номер токена", а объяснить, что позиция влияет на attention scores и позволяет модели отличать разные порядки одних и тех же слов.

Теория

Позиционная схема - часть inductive bias модели. Она влияет на способность работать с длинным контекстом, extrapolation и стабильность attention.

Типичные ошибки

Сказать, что порядок уже есть в последовательной подаче токенов.
Назвать только learned embeddings и не вспомнить RoPE.
Не объяснить, почему self-attention без позиции не различает порядок.

Как отвечать на собеседовании

Начни с permutation-invariance self-attention.
Назови 2-3 современных варианта: RoPE, ALiBi, relative bias.