Назад к подготовке
ВопросСредняяllm-architectureТехническое собеседование · Huawei

Зачем нужны positional embeddings в Transformer

Для чего нужны positional embeddings и какие виды positional embeddings используются в LLM?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Self-attention без позиционного сигнала permutation-equivariant: при перестановке токенов переставятся и выходы. Поэтому модели нужен явный сигнал о порядке: learned/sinusoidal positions, relative bias, RoPE или ALiBi.

Полный разбор

Без позиционной информации Transformer сравнивает content-векторы, но не получает отдельного признака "первый", "следующий" или "далеко справа". Если одновременно переставить входные токены, attention переставит выходы тем же образом, поэтому одного content-attention недостаточно для языка.

Основные варианты: learned absolute positional embeddings, синусоидальные absolute embeddings, relative position bias, RoPE и ALiBi. В современных LLM часто встречается RoPE: позиция кодируется вращением query/key векторов, что удобно для relative distances и extrapolation к более длинному context при аккуратной настройке.

Важно отделять positional signal от causal mask. Causal mask задает видимость слева направо, но сам по себе не сообщает модели точную дистанцию и абсолютную/относительную позицию токенов.

Теория

Позиционная схема - часть inductive bias модели. Она влияет на способность работать с длинным контекстом, extrapolation и стабильность attention.

Типичные ошибки

  • Сказать, что порядок уже есть в последовательной подаче токенов.
  • Назвать только learned embeddings и не вспомнить RoPE.
  • Не объяснить, почему self-attention без позиции не различает порядок.

Как отвечать на собеседовании

  • Начни с permutation-invariance self-attention.
  • Назови 2-3 современных варианта: RoPE, ALiBi, relative bias.