Сколько forward-pass нужно GPT на train batch

GPT генерирует autoregressive, токен за токеном. Сколько forward-pass нужно сделать для одного training batch и почему?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Один forward-pass на всю последовательность: causal mask запрещает смотреть в будущие токены, а loss считается параллельно для всех next-token позиций.

Полный разбор

На training decoder-only GPT не генерирует токены последовательно как на inference. Вся последовательность подается сразу, attention получает causal mask, поэтому позиция t видит только позиции <= t. Модель параллельно предсказывает следующий токен для всех позиций, а cross-entropy считается по shifted targets. Последовательный decode нужен на autoregressive inference, потому что следующий input зависит от уже сгенерированного токена.