Назад к подготовке

ВопросСредняяdeep-learningТехническое собеседование · Sber / GigaChat

BERT vs GPT: в чем архитектурная разница

Объясните разницу между BERT-like encoder моделями и GPT-like decoder моделями, и почему они подходят для разных задач.

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

BERT - bidirectional encoder для представлений и понимания текста; GPT - causal decoder для autoregressive generation.

Полный разбор

BERT использует encoder-style self-attention, где токен может смотреть на контекст слева и справа. Это удобно для классификации, retrieval embeddings, NER и задач понимания текста. Обучение обычно связано с masked language modeling или похожими self-supervised целями. GPT использует causal mask: каждый токен видит только предыдущие. Такая модель учится предсказывать следующий токен и естественно подходит для генерации текста, диалога, completion и agentic reasoning. На практике encoder модели часто дают компактные embeddings и быстрый scoring, а decoder модели лучше как генераторы и reasoning layer, но дороже на inference.

Типичные ошибки

Говорить, что BERT просто старая версия GPT.
Не упомянуть causal mask у GPT.
Не связать архитектуру с типом задач.

Как отвечать на собеседовании

Скажи bidirectional encoder vs causal decoder.
Приведи примеры задач для каждого класса.