ВопросHardvlm-trainingРеальный собес

RLHF/DPO для product alignment VLM

Когда для мультимодальной модели нужен RLHF или DPO, и как собрать preference data для такого обучения?

Короткий ответ

Preference optimization нужен, когда есть несколько допустимых ответов и важен product preference: краткость, полезность, refusal/safety, формат и grounding.

Полный разбор

Preference data собирается как пары ответов на один image/query: какой лучше и почему. Источники: human annotators, expert review, production feedback, synthetic candidates с hard negatives. Рубрика должна быть явной: factuality важнее красивого стиля; unsupported claim хуже неполного ответа; формат обязателен.

DPO проще в запуске, RLHF сложнее и требует reward model/online safety. Риски: reward hacking, preference bias, деградация rare cases, переоптимизация под judge.

Теория

SFT учит отвечать правильно по примерам, preference optimization учит выбирать лучший из правдоподобных вариантов.

Типичные ошибки

Собирать preferences без рубрики.
Оптимизировать helpfulness ценой hallucination.
Не держать holdout для регрессий.

Как отвечать на собеседовании

Покажи hierarchy критериев: safety/factuality выше стиля.