RoPE и positional embeddings в GPT
Какие бывают positional embeddings в Transformer и как работает RoPE?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
RoPE кодирует позицию поворотом пар координат в Q/K; dot product после поворота зависит от относительного расстояния между токенами.
Полный разбор
Позиционная информация нужна, потому что self-attention сам по себе permutation-invariant. Классические варианты: sinusoidal embeddings, learned absolute embeddings, relative position bias.
RoPE применяет rotation к query и key векторам по парам координат с углом, зависящим от позиции. Когда считаем QK dot product, фазовая разница несет информацию об относительном расстоянии. Это удобно для decoder LLM и long-context scaling, но требует аккуратной extrapolation настройки.