Реальный собесЯндекс2024-11-21

Yandex VLM final: мультимодальные сценарии, evaluation и serving

Финальная/командная секция вокруг VLM-продуктов: product use cases, multimodal query rewriting, prompting vs fine-tuning, caption evaluation, preference optimization и production serving.

Таймлайн собеседования

Компактный список вопросов и задач по ходу записи: раскрывайте только нужные детали.

00:04:52-00:15:44Вопрос

Вопрос

Product use cases для VLM

00:15:44-00:27:08Вопрос

Вопрос

Multimodal query rewriting

00:27:08-00:39:14Вопрос

Вопрос

Prompting, fine-tuning или data-centric improvement

00:39:14-00:50:36Вопрос

Вопрос

Evaluation для описаний изображений

00:50:36-01:03:10Вопрос

Вопрос

RLHF/DPO для product alignment

01:03:10-01:14:45Вопрос

Вопрос

Serving VLM: latency, cost и fallback

Выводы и как готовиться

VLM должна быть привязана к конкретным UX-сценариям, метрикам и fallback, иначе это просто platform capability.
Evaluation captions требует factual grounding и task usefulness, а не только similarity to reference.
В production тяжелую VLM нужно выносить в offline enrichment или model cascade, если latency path критичен.