Современный training pipeline LLM: pretrain, SFT, alignment
Расскажите про современную архитектуру LLM и процесс обучения: какие основные этапы, данные, objective и loss используются?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Современные LLM чаще всего строятся как decoder-only Transformers и обучаются по этапам: next-token pretraining на больших корпусах, затем SFT/instruction tuning, затем preference/alignment оптимизация вроде RLHF, DPO или близких методов.
Полный разбор
Базовая современная LLM - это decoder-only Transformer: token embeddings проходят через блоки causal self-attention, feed-forward/MLP layers, residual connections, normalization и language-modeling head. Основная pretraining objective - next-token prediction с cross-entropy по большим корпусам текста и кода.
Второй этап - supervised fine-tuning или instruction tuning. Модель обучают на prompt-response pairs, чтобы сырой pretrained model начал хорошо отвечать в диалоге, следовать инструкциям, использовать tool-use formats и решать доменные задачи. Полный fine-tuning возможен, но при ограничениях по стоимости и данным часто используют parameter-efficient методы вроде LoRA/adapters.
Третий этап - alignment/preference optimization. Классический RLHF обучает reward model по human preference comparisons, затем оптимизирует policy PPO-подобными методами. Более прямые preference methods вроде DPO и новых вариантов обходятся без отдельного online RL loop и оптимизируются по preference pairs напрямую. Цель этого этапа - сделать ответы более полезными, безопасными и согласованными с требованиями продукта, а не заново научить модель базовым знаниям.
В современных системах также часто добавляют reasoning-style training/inference, tool-use или agent scaffolding, RAG для внешних знаний и MoE-варианты, чтобы увеличить общее число параметров при меньшем active compute.
Теория
Главное разделение: базовые способности идут из pretraining, следование инструкциям - из SFT, а preference/safety/product alignment - из RLHF/DPO-подобных этапов.
Типичные ошибки
- Описать только архитектуру Transformer и пропустить этапы обучения.
- Сказать, что RLHF учит базовые языковые знания.
- Считать LoRA отдельной архитектурой модели, а не parameter-efficient fine-tuning методом.
- Забыть реальный pretraining loss: causal next-token cross-entropy.
Как отвечать на собеседовании
- Начни с decoder-only Transformer и next-token loss, затем пройди pretrain -> SFT -> preference/alignment.
- Для каждого этапа назови форму данных: raw corpus, instruction pairs, preference pairs или rewards.