BERT: encoder, pretraining и attention
Что такое BERT, чем encoder отличается от decoder и какие pretraining-механизмы у BERT?
Короткий ответ
BERT - encoder-only Transformer. Он видит контекст слева и справа, исторически обучался через masked language modeling и next sentence prediction.
Полный разбор
BERT использует encoder-блоки Transformer: self-attention без causal mask, feed-forward layers, residual connections и normalization. В отличие от autoregressive decoder, encoder может смотреть на всю последовательность сразу, поэтому хорошо подходит для классификации, NER, retrieval embeddings и понимания текста.
Классический pretraining BERT: masked language modeling, где часть токенов маскируется и модель восстанавливает их по контексту, и next sentence prediction в оригинальной статье. В современных вариантах NSP часто заменяли или убирали.
Attention внутри encoder считает Q/K/V для токенов, softmax по scaled dot products и обновляет представления токенов с учетом контекста.
Теория
Буква B в BERT означает bidirectional: представление токена строится с учетом левого и правого контекста.
Типичные ошибки
- Называть BERT decoder-only моделью.
- Не упомянуть masked language modeling.
- Говорить про attention без Q/K/V.
Как отвечать на собеседовании
- Начни с encoder-only и bidirectional.
- Коротко сравни с GPT через causal mask.