RLHF/DPO для product alignment VLM
Когда для мультимодальной модели нужен RLHF или DPO, и как собрать preference data для такого обучения?
Короткий ответ
Preference optimization нужен, когда есть несколько допустимых ответов и важен product preference: краткость, полезность, refusal/safety, формат и grounding.
Полный разбор
Preference data собирается как пары ответов на один image/query: какой лучше и почему. Источники: human annotators, expert review, production feedback, synthetic candidates с hard negatives. Рубрика должна быть явной: factuality важнее красивого стиля; unsupported claim хуже неполного ответа; формат обязателен.
DPO проще в запуске, RLHF сложнее и требует reward model/online safety. Риски: reward hacking, preference bias, деградация rare cases, переоптимизация под judge.
Теория
SFT учит отвечать правильно по примерам, preference optimization учит выбирать лучший из правдоподобных вариантов.
Типичные ошибки
- Собирать preferences без рубрики.
- Оптимизировать helpfulness ценой hallucination.
- Не держать holdout для регрессий.
Как отвечать на собеседовании
- Покажи hierarchy критериев: safety/factuality выше стиля.