RoPE и positional embeddings в GPT

Какие бывают positional embeddings в Transformer и как работает RoPE?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

RoPE кодирует позицию поворотом пар координат в Q/K; dot product после поворота зависит от относительного расстояния между токенами.

Полный разбор

Позиционная информация нужна, потому что self-attention сам по себе permutation-invariant. Классические варианты: sinusoidal embeddings, learned absolute embeddings, relative position bias. RoPE применяет rotation к query и key векторам по парам координат с углом, зависящим от позиции. Когда считаем QK dot product, фазовая разница несет информацию об относительном расстоянии. Это удобно для decoder LLM и long-context scaling, но требует аккуратной extrapolation настройки.