Пройти собеседование: Insilico Medicine: Скрининг

1Вопрос10 мин

LoRA, multi-GPU обучение и RLHF: что важно объяснить

Чем LoRA отличается от полного fine-tuning, какие ограничения появляются при multi-GPU обучении LLM и чем RLHF-подход отличается от классического RL?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

LoRA обучает небольшие low-rank добавки к весам вместо полного обновления модели. Multi-GPU обучение упирается в память, синхронизацию градиентов, sharding и коммуникации. RLHF оптимизирует политику по preference/reward-сигналу, а не просто дообучает next-token loss.

Подробный разбор

В полном fine-tuning обновляются все веса модели, поэтому нужны больше памяти, optimizer states и аккуратное управление переобучением. LoRA замораживает базовые веса и обучает низкоранговые матрицы-добавки в выбранных слоях, чаще всего в attention/MLP projections. Это дешевле, проще хранить как adapter и удобно переключать под разные задачи, но емкость обновления ограничена выбранным rank и местами вставки.

Multi-GPU обучение LLM требует понимать, что именно распределяется: данные, параметры, optimizer states, активации или тензоры внутри слоя. Базовые варианты: DDP для data parallel, FSDP/ZeRO для sharding параметров и optimizer states, tensor/pipeline parallel для очень больших моделей. Практические ограничения: GPU memory, communication overhead, gradient accumulation, mixed precision, activation checkpointing, скорость checkpoint-ов и воспроизводимость.

RLHF и похожие preference-подходы отличаются от обычного SFT. SFT учит модель на парах prompt-response через supervised loss. RLHF добавляет reward model или preference objective и оптимизирует поведение модели по человеческим предпочтениям, часто через PPO-подобные методы. DPO и родственные методы используют preference pairs более напрямую без отдельного online RL loop. Классический RL про среду, состояния, действия и reward, а в LLM alignment reward обычно строится из предпочтений ответов.

Типичные ошибки

Смешать LoRA с pretraining или считать ее отдельной архитектурой модели.
Сказать "multi-GPU", но не объяснить, что именно sharding-ится или синхронизируется.
Описывать RLHF как обычный supervised fine-tuning без reward/preference сигнала.