Назад к подготовке

ВопросСложнаяllm-foundationsТехническое собеседование · Toloka AI

Современный training pipeline LLM: pretrain, SFT, alignment

Расскажите про современную архитектуру LLM и процесс обучения: какие основные этапы, данные, objective и loss используются?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Современные LLM чаще всего строятся как decoder-only Transformers и обучаются по этапам: next-token pretraining на больших корпусах, затем SFT/instruction tuning, затем preference/alignment оптимизация вроде RLHF, DPO или близких методов.

Полный разбор

Теория

Главное разделение: базовые способности идут из pretraining, следование инструкциям - из SFT, а preference/safety/product alignment - из RLHF/DPO-подобных этапов.

Типичные ошибки

Описать только архитектуру Transformer и пропустить этапы обучения.
Сказать, что RLHF учит базовые языковые знания.
Считать LoRA отдельной архитектурой модели, а не parameter-efficient fine-tuning методом.
Забыть реальный pretraining loss: causal next-token cross-entropy.

Как отвечать на собеседовании

Начни с decoder-only Transformer и next-token loss, затем пройди pretrain -> SFT -> preference/alignment.
Для каждого этапа назови форму данных: raw corpus, instruction pairs, preference pairs или rewards.