BERT vs GPT: в чем архитектурная разница
Объясните разницу между BERT-like encoder моделями и GPT-like decoder моделями, и почему они подходят для разных задач.
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
BERT - bidirectional encoder для представлений и понимания текста; GPT - causal decoder для autoregressive generation.
Полный разбор
BERT использует encoder-style self-attention, где токен может смотреть на контекст слева и справа. Это удобно для классификации, retrieval embeddings, NER и задач понимания текста. Обучение обычно связано с masked language modeling или похожими self-supervised целями.
GPT использует causal mask: каждый токен видит только предыдущие. Такая модель учится предсказывать следующий токен и естественно подходит для генерации текста, диалога, completion и agentic reasoning.
На практике encoder модели часто дают компактные embeddings и быстрый scoring, а decoder модели лучше как генераторы и reasoning layer, но дороже на inference.
Типичные ошибки
- Говорить, что BERT просто старая версия GPT.
- Не упомянуть causal mask у GPT.
- Не связать архитектуру с типом задач.
Как отвечать на собеседовании
- Скажи bidirectional encoder vs causal decoder.
- Приведи примеры задач для каждого класса.