К обычному разбору
Тренировка по собеседованиюСкринингInsilico Medicine2025-10-15

Insilico Medicine: Скрининг

Идите сверху вниз: сначала попробуйте сами, затем откройте разбор. Если шаг с кодом, пишите решение прямо здесь и запускайте проверки на странице.

Шагов
1
Вопросов
1
Задач
0
1Вопрос10 мин

LoRA, multi-GPU обучение и RLHF: что важно объяснить

Чем LoRA отличается от полного fine-tuning, какие ограничения появляются при multi-GPU обучении LLM и чем RLHF-подход отличается от классического RL?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Показать разбор

Короткий ответ

LoRA обучает небольшие low-rank добавки к весам вместо полного обновления модели. Multi-GPU обучение упирается в память, синхронизацию градиентов, sharding и коммуникации. RLHF оптимизирует политику по preference/reward-сигналу, а не просто дообучает next-token loss.

Подробный разбор

В полном fine-tuning обновляются все веса модели, поэтому нужны больше памяти, optimizer states и аккуратное управление переобучением. LoRA замораживает базовые веса и обучает низкоранговые матрицы-добавки в выбранных слоях, чаще всего в attention/MLP projections. Это дешевле, проще хранить как adapter и удобно переключать под разные задачи, но емкость обновления ограничена выбранным rank и местами вставки.

Multi-GPU обучение LLM требует понимать, что именно распределяется: данные, параметры, optimizer states, активации или тензоры внутри слоя. Базовые варианты: DDP для data parallel, FSDP/ZeRO для sharding параметров и optimizer states, tensor/pipeline parallel для очень больших моделей. Практические ограничения: GPU memory, communication overhead, gradient accumulation, mixed precision, activation checkpointing, скорость checkpoint-ов и воспроизводимость.

RLHF и похожие preference-подходы отличаются от обычного SFT. SFT учит модель на парах prompt-response через supervised loss. RLHF добавляет reward model или preference objective и оптимизирует поведение модели по человеческим предпочтениям, часто через PPO-подобные методы. DPO и родственные методы используют preference pairs более напрямую без отдельного online RL loop. Классический RL про среду, состояния, действия и reward, а в LLM alignment reward обычно строится из предпочтений ответов.

Типичные ошибки

  • Смешать LoRA с pretraining или считать ее отдельной архитектурой модели.
  • Сказать "multi-GPU", но не объяснить, что именно sharding-ится или синхронизируется.
  • Описывать RLHF как обычный supervised fine-tuning без reward/preference сигнала.