LoRA, multi-GPU обучение и RLHF: что важно объяснить
Чем LoRA отличается от полного fine-tuning, какие ограничения появляются при multi-GPU обучении LLM и чем RLHF-подход отличается от классического RL?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
LoRA обучает небольшие low-rank добавки к весам вместо полного обновления модели. Multi-GPU обучение упирается в память, синхронизацию градиентов, sharding и коммуникации. RLHF оптимизирует политику по preference/reward-сигналу, а не просто дообучает next-token loss.
Полный разбор
В полном fine-tuning обновляются все веса модели, поэтому нужны больше памяти, optimizer states и аккуратное управление переобучением. LoRA замораживает базовые веса и обучает низкоранговые матрицы-добавки в выбранных слоях, чаще всего в attention/MLP projections. Это дешевле, проще хранить как adapter и удобно переключать под разные задачи, но емкость обновления ограничена выбранным rank и местами вставки.
Multi-GPU обучение LLM требует понимать, что именно распределяется: данные, параметры, optimizer states, активации или тензоры внутри слоя. Базовые варианты: DDP для data parallel, FSDP/ZeRO для sharding параметров и optimizer states, tensor/pipeline parallel для очень больших моделей. Практические ограничения: GPU memory, communication overhead, gradient accumulation, mixed precision, activation checkpointing, скорость checkpoint-ов и воспроизводимость.
RLHF и похожие preference-подходы отличаются от обычного SFT. SFT учит модель на парах prompt-response через supervised loss. RLHF добавляет reward model или preference objective и оптимизирует поведение модели по человеческим предпочтениям, часто через PPO-подобные методы. DPO и родственные методы используют preference pairs более напрямую без отдельного online RL loop. Классический RL про среду, состояния, действия и reward, а в LLM alignment reward обычно строится из предпочтений ответов.
Типичные ошибки
- Смешать LoRA с pretraining или считать ее отдельной архитектурой модели.
- Сказать "multi-GPU", но не объяснить, что именно sharding-ится или синхронизируется.
- Описывать RLHF как обычный supervised fine-tuning без reward/preference сигнала.