ВопросHardmlsd-generalРеальный собес

Как получить пары текстовый запрос — дорожный сегмент

Для обучения retrieval нужны пары текстовый запрос и релевантный дорожный сегмент из последовательностей изображений. Где взять такие labels и как не утонуть в ручной разметке?

Короткий ответ

Источники labels: существующие perception tags, simulation/scenario metadata, human annotations, query logs, synthetic captions от VLM с human review. Для обучения нужны positives, hard negatives и контроль качества разметки.

Полный разбор

Данные можно собирать несколькими путями. Если в autonomous driving stack уже есть perception outputs, они дают weak labels: pedestrian, cyclist, traffic light, lane change, weather, road type, time of day. Из них можно генерировать текстовые шаблоны и positive pairs.

Более качественный слой - ручная разметка или review редких сценариев. Можно дать annotator'ам clips и набор scenario labels, либо попросить писать natural-language captions. Query logs от внутренних пользователей тоже полезны: если analyst искал "pedestrian at night" и выбрал конкретные clips, это сильный implicit feedback.

VLM может помочь с synthetic captions, но нужен human review и фильтрация. Для retrieval особенно важны hard negatives: похожие сцены с другим объектом, похожая погода без нужного event, соседние temporal segments. Без hard negatives модель будет хорошо ловить общую семантику, но плохо различать важные детали.

Теория

В retrieval качество данных часто важнее архитектуры. Weak supervision, synthetic captions и human-in-the-loop помогают масштабировать пары запрос-сегмент.

Типичные ошибки

Предположить, что все labels уже есть идеально.
Не обсудить hard negatives.
Использовать VLM captions как ground truth без проверки.

Как отвечать на собеседовании

Перечисли несколько источников labels и скажи, какие слабые/сильные.
Обязательно упомяни hard negative mining.