К тренажеру
ВопросHardvlm-trainingРеальный собес

RLHF/DPO для product alignment VLM

Когда для мультимодальной модели нужен RLHF или DPO, и как собрать preference data для такого обучения?

Короткий ответ

Preference optimization нужен, когда есть несколько допустимых ответов и важен product preference: краткость, полезность, refusal/safety, формат и grounding.

Полный разбор

Preference data собирается как пары ответов на один image/query: какой лучше и почему. Источники: human annotators, expert review, production feedback, synthetic candidates с hard negatives. Рубрика должна быть явной: factuality важнее красивого стиля; unsupported claim хуже неполного ответа; формат обязателен.

DPO проще в запуске, RLHF сложнее и требует reward model/online safety. Риски: reward hacking, preference bias, деградация rare cases, переоптимизация под judge.

Теория

SFT учит отвечать правильно по примерам, preference optimization учит выбирать лучший из правдоподобных вариантов.

Типичные ошибки

  • Собирать preferences без рубрики.
  • Оптимизировать helpfulness ценой hallucination.
  • Не держать holdout для регрессий.

Как отвечать на собеседовании

  • Покажи hierarchy критериев: safety/factuality выше стиля.