Как получить пары текстовый запрос — дорожный сегмент
Для обучения retrieval нужны пары текстовый запрос и релевантный дорожный сегмент из последовательностей изображений. Где взять такие labels и как не утонуть в ручной разметке?
Короткий ответ
Источники labels: существующие perception tags, simulation/scenario metadata, human annotations, query logs, synthetic captions от VLM с human review. Для обучения нужны positives, hard negatives и контроль качества разметки.
Полный разбор
Данные можно собирать несколькими путями. Если в autonomous driving stack уже есть perception outputs, они дают weak labels: pedestrian, cyclist, traffic light, lane change, weather, road type, time of day. Из них можно генерировать текстовые шаблоны и positive pairs.
Более качественный слой - ручная разметка или review редких сценариев. Можно дать annotator'ам clips и набор scenario labels, либо попросить писать natural-language captions. Query logs от внутренних пользователей тоже полезны: если analyst искал "pedestrian at night" и выбрал конкретные clips, это сильный implicit feedback.
VLM может помочь с synthetic captions, но нужен human review и фильтрация. Для retrieval особенно важны hard negatives: похожие сцены с другим объектом, похожая погода без нужного event, соседние temporal segments. Без hard negatives модель будет хорошо ловить общую семантику, но плохо различать важные детали.
Теория
В retrieval качество данных часто важнее архитектуры. Weak supervision, synthetic captions и human-in-the-loop помогают масштабировать пары запрос-сегмент.
Типичные ошибки
- Предположить, что все labels уже есть идеально.
- Не обсудить hard negatives.
- Использовать VLM captions как ground truth без проверки.
Как отвечать на собеседовании
- Перечисли несколько источников labels и скажи, какие слабые/сильные.
- Обязательно упомяни hard negative mining.