Сколько forward-pass нужно GPT на train batch
GPT генерирует autoregressive, токен за токеном. Сколько forward-pass нужно сделать для одного training batch и почему?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Один forward-pass на всю последовательность: causal mask запрещает смотреть в будущие токены, а loss считается параллельно для всех next-token позиций.
Полный разбор
На training decoder-only GPT не генерирует токены последовательно как на inference. Вся последовательность подается сразу, attention получает causal mask, поэтому позиция t видит только позиции <= t.
Модель параллельно предсказывает следующий токен для всех позиций, а cross-entropy считается по shifted targets. Последовательный decode нужен на autoregressive inference, потому что следующий input зависит от уже сгенерированного токена.