Как использовать текущую AV-систему в scene retrieval
В Waymo уже есть perception, prediction и map stack. Как использовать этот контекст при проектировании поиска дорожных сцен по тексту?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Текущий AV-stack дает слабые labels и фильтры: объекты, траектории, road graph, weather, time, location, сценарии и версии perception. Эти признаки помогают отбирать кандидатов и объяснять результат.
Полный разбор
Текущая система автономного автомобиля уже извлекает много полезного до отдельной retrieval-модели. Perception находит пешеходов, машины, велосипедистов, светофоры и полосы. Prediction хранит траектории и маневры. Map stack знает тип дороги, перекрестки, повороты и зоны. Логи содержат время, место, погоду, версию модели и качество сенсоров.
Эти данные дают две вещи. Во-первых, они ускоряют MVP: запрос "pedestrian at night near crosswalk" можно частично обработать metadata-фильтрами. Во-вторых, они помогают обучать и проверять retrieval: existing tags становятся weak labels, а rare scenario buckets становятся срезами качества.
Важно не путать metadata search с финальной мультимодальной моделью. Metadata хорошо ловит заранее известные признаки, а text-to-scene embeddings нужны для более свободных запросов и комбинаций условий. Production-система обычно соединяет оба слоя: фильтры и ANN retrieval отбирают кандидатов, reranker собирает финальный порядок.
Теория
В MLSD полезно вытаскивать требования из уже существующей системы. В autonomous driving уже есть perception metadata, поэтому retrieval не начинается с пустого места.