Где bottleneck при генерации simulation data

Для редких дорожных сценариев можно генерировать synthetic/simulation data. Где главный bottleneck и как использовать такие данные в retrieval-системе?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Bottleneck не только в rendering. Команда задает сценарий, покрывает вариации, проверяет реализм, размечает outcome и контролирует gap между simulation и реальными логами.

Полный разбор

Simulation помогает закрывать редкие события, но она не создает бесплатную истину. Сначала инженер задает сценарий: кто движется, где находится crosswalk, какая погода, скорость, видимость, поведение других участников. Затем нужно покрыть вариации, отрендерить или проиграть сцену, проверить физическую правдоподобность и записать labels. Главный bottleneck часто находится в сценарном дизайне и validation. Если synthetic сцены слишком чистые, модель учится на красивых примерах и хуже ищет шумные реальные логи. Если сценарии задаются узко, система переобучается на шаблон и не ловит неожиданные варианты. Для retrieval такие данные полезны как augmentation и hard negatives: похожие сцены с одним измененным условием помогают модели различать детали запроса. Финальное качество все равно проверяется на реальных логах и human-reviewed редких slices.

Synthetic data снижает дефицит редких примеров, но domain gap и сценарное покрытие остаются отдельными рисками качества.