ВопросСложнаяmlsd-cv-retrievalML System Design на техническом собеседовании · Waymo

Как использовать текущую AV-систему в scene retrieval

В Waymo уже есть perception, prediction и map stack. Как использовать этот контекст при проектировании поиска дорожных сцен по тексту?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Текущий AV-stack дает слабые labels и фильтры: объекты, траектории, road graph, weather, time, location, сценарии и версии perception. Эти признаки помогают отбирать кандидатов и объяснять результат.

Полный разбор

Текущая система автономного автомобиля уже извлекает много полезного до отдельной retrieval-модели. Perception находит пешеходов, машины, велосипедистов, светофоры и полосы. Prediction хранит траектории и маневры. Map stack знает тип дороги, перекрестки, повороты и зоны. Логи содержат время, место, погоду, версию модели и качество сенсоров. Эти данные дают две вещи. Во-первых, они ускоряют MVP: запрос "pedestrian at night near crosswalk" можно частично обработать metadata-фильтрами. Во-вторых, они помогают обучать и проверять retrieval: existing tags становятся weak labels, а rare scenario buckets становятся срезами качества. Важно не путать metadata search с финальной мультимодальной моделью. Metadata хорошо ловит заранее известные признаки, а text-to-scene embeddings нужны для более свободных запросов и комбинаций условий. Production-система обычно соединяет оба слоя: фильтры и ANN retrieval отбирают кандидатов, reranker собирает финальный порядок.

Теория

В MLSD полезно вытаскивать требования из уже существующей системы. В autonomous driving уже есть perception metadata, поэтому retrieval не начинается с пустого места.