ВопросСредняяllm-trainingСкрининг · Insilico Medicine

LoRA, multi-GPU обучение и RLHF: что важно объяснить

Чем LoRA отличается от полного fine-tuning, какие ограничения появляются при multi-GPU обучении LLM и чем RLHF-подход отличается от классического RL?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

LoRA обучает небольшие low-rank добавки к весам вместо полного обновления модели. Multi-GPU обучение упирается в память, синхронизацию градиентов, sharding и коммуникации. RLHF оптимизирует политику по preference/reward-сигналу, а не просто дообучает next-token loss.

Полный разбор

Смешать LoRA с pretraining или считать ее отдельной архитектурой модели.
Сказать "multi-GPU", но не объяснить, что именно sharding-ится или синхронизируется.
Описывать RLHF как обычный supervised fine-tuning без reward/preference сигнала.