Назад к подготовке

ВопросСредняяdeep-learningТехническое собеседование · T1 / PrideInBrains

Базовая архитектура Transformer

Коротко объясните, из каких блоков состоит Transformer и какую роль играет attention.

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Transformer состоит из embeddings, positional information, self-attention, feed-forward blocks, residual connections и normalization.

Полный разбор

Transformer заменяет recurrent обработку последовательности на attention. Каждый токен получает embedding, к нему добавляется positional information, затем self-attention позволяет токенам смотреть на другие токены и агрегировать контекст. Типичный block: multi-head self-attention, residual connection, layer norm, feed-forward network, снова residual/norm. Multi-head attention позволяет разным heads смотреть на разные виды связей. Feed-forward слой применяет нелинейное преобразование к каждому position. Для encoder моделей attention обычно bidirectional, для decoder LLM используется causal mask, чтобы токен не видел будущее.

Типичные ошибки

Забыть positional information.
Не объяснить разницу encoder/decoder mask.
Сводить Transformer только к attention formula.

Как отвечать на собеседовании

Назови block-level структуру.
Покажи связь с BERT/GPT.