Назад к подготовке

Базовая архитектура Transformer

Коротко объясните, из каких блоков состоит Transformer и какую роль играет attention.

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Transformer состоит из embeddings, positional information, self-attention, feed-forward blocks, residual connections и normalization.

Полный разбор

Transformer заменяет recurrent обработку последовательности на attention. Каждый токен получает embedding, к нему добавляется positional information, затем self-attention позволяет токенам смотреть на другие токены и агрегировать контекст.

Типичный block: multi-head self-attention, residual connection, layer norm, feed-forward network, снова residual/norm. Multi-head attention позволяет разным heads смотреть на разные виды связей. Feed-forward слой применяет нелинейное преобразование к каждому position.

Для encoder моделей attention обычно bidirectional, для decoder LLM используется causal mask, чтобы токен не видел будущее.

Типичные ошибки

  • Забыть positional information.
  • Не объяснить разницу encoder/decoder mask.
  • Сводить Transformer только к attention formula.

Как отвечать на собеседовании

  • Назови block-level структуру.
  • Покажи связь с BERT/GPT.