Базовая архитектура Transformer
Коротко объясните, из каких блоков состоит Transformer и какую роль играет attention.
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Transformer состоит из embeddings, positional information, self-attention, feed-forward blocks, residual connections и normalization.
Полный разбор
Transformer заменяет recurrent обработку последовательности на attention. Каждый токен получает embedding, к нему добавляется positional information, затем self-attention позволяет токенам смотреть на другие токены и агрегировать контекст.
Типичный block: multi-head self-attention, residual connection, layer norm, feed-forward network, снова residual/norm. Multi-head attention позволяет разным heads смотреть на разные виды связей. Feed-forward слой применяет нелинейное преобразование к каждому position.
Для encoder моделей attention обычно bidirectional, для decoder LLM используется causal mask, чтобы токен не видел будущее.
Типичные ошибки
- Забыть positional information.
- Не объяснить разницу encoder/decoder mask.
- Сводить Transformer только к attention formula.
Как отвечать на собеседовании
- Назови block-level структуру.
- Покажи связь с BERT/GPT.