ВопросMediumtransformersРеальный собес

BERT: encoder, pretraining и attention

Что такое BERT, чем encoder отличается от decoder и какие pretraining-механизмы у BERT?

Короткий ответ

BERT - encoder-only Transformer. Он видит контекст слева и справа, исторически обучался через masked language modeling и next sentence prediction.

Полный разбор

BERT использует encoder-блоки Transformer: self-attention без causal mask, feed-forward layers, residual connections и normalization. В отличие от autoregressive decoder, encoder может смотреть на всю последовательность сразу, поэтому хорошо подходит для классификации, NER, retrieval embeddings и понимания текста.

Классический pretraining BERT: masked language modeling, где часть токенов маскируется и модель восстанавливает их по контексту, и next sentence prediction в оригинальной статье. В современных вариантах NSP часто заменяли или убирали.

Attention внутри encoder считает Q/K/V для токенов, softmax по scaled dot products и обновляет представления токенов с учетом контекста.

Теория

Буква B в BERT означает bidirectional: представление токена строится с учетом левого и правого контекста.

Типичные ошибки

Называть BERT decoder-only моделью.
Не упомянуть masked language modeling.
Говорить про attention без Q/K/V.

Как отвечать на собеседовании

Начни с encoder-only и bidirectional.
Коротко сравни с GPT через causal mask.