Evaluation для описаний изображений
Как оценить качество VLM, которая генерирует описание изображения для пользователя или downstream поиска?
Короткий ответ
Нужна rubric-based оценка: factual objects/attributes, completeness, usefulness for task, safety, no hallucinations; auto-metrics только вспомогательные.
Полный разбор
Для product caption важны не BLEU-like совпадения, а grounded correctness. Набор должен покрывать common and rare scenes, text in image, multiple objects, ambiguous categories, sensitive content. Рубрика: objects, attributes, relations, OCR, uncertainty, hallucination, verbosity, language/style and usefulness for target workflow.
LLM/VLM judge можно использовать после калибровки на human labels. Для downstream поиска нужно дополнительно мерить retrieval uplift от captions/features.
Теория
Generative image description оценивается по task usefulness and factual grounding, а не только по похожести на reference caption.
Типичные ошибки
- Полагаться на CIDEr/BLEU как primary metric.
- Не размечать hallucinations.
- Не тестировать OCR/text-heavy images.
Как отвечать на собеседовании
- Раздели intrinsic caption quality и downstream product metric.