Назад к подготовке

BERT vs GPT: в чем архитектурная разница

Объясните разницу между BERT-like encoder моделями и GPT-like decoder моделями, и почему они подходят для разных задач.

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

BERT - bidirectional encoder для представлений и понимания текста; GPT - causal decoder для autoregressive generation.

Полный разбор

BERT использует encoder-style self-attention, где токен может смотреть на контекст слева и справа. Это удобно для классификации, retrieval embeddings, NER и задач понимания текста. Обучение обычно связано с masked language modeling или похожими self-supervised целями.

GPT использует causal mask: каждый токен видит только предыдущие. Такая модель учится предсказывать следующий токен и естественно подходит для генерации текста, диалога, completion и agentic reasoning.

На практике encoder модели часто дают компактные embeddings и быстрый scoring, а decoder модели лучше как генераторы и reasoning layer, но дороже на inference.

Типичные ошибки

  • Говорить, что BERT просто старая версия GPT.
  • Не упомянуть causal mask у GPT.
  • Не связать архитектуру с типом задач.

Как отвечать на собеседовании

  • Скажи bidirectional encoder vs causal decoder.
  • Приведи примеры задач для каждого класса.