ВопросHardevaluationРеальный собес

Evaluation для описаний изображений

Как оценить качество VLM, которая генерирует описание изображения для пользователя или downstream поиска?

Короткий ответ

Нужна rubric-based оценка: factual objects/attributes, completeness, usefulness for task, safety, no hallucinations; auto-metrics только вспомогательные.

Полный разбор

Для product caption важны не BLEU-like совпадения, а grounded correctness. Набор должен покрывать common and rare scenes, text in image, multiple objects, ambiguous categories, sensitive content. Рубрика: objects, attributes, relations, OCR, uncertainty, hallucination, verbosity, language/style and usefulness for target workflow.

LLM/VLM judge можно использовать после калибровки на human labels. Для downstream поиска нужно дополнительно мерить retrieval uplift от captions/features.

Теория

Generative image description оценивается по task usefulness and factual grounding, а не только по похожести на reference caption.

Типичные ошибки

Полагаться на CIDEr/BLEU как primary metric.
Не размечать hallucinations.
Не тестировать OCR/text-heavy images.

Как отвечать на собеседовании

Раздели intrinsic caption quality и downstream product metric.