Где bottleneck при генерации simulation data
Для редких дорожных сценариев можно генерировать synthetic/simulation data. Где главный bottleneck и как использовать такие данные в retrieval-системе?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Bottleneck не только в rendering. Команда задает сценарий, покрывает вариации, проверяет реализм, размечает outcome и контролирует gap между simulation и реальными логами.
Полный разбор
Simulation помогает закрывать редкие события, но она не создает бесплатную истину. Сначала инженер задает сценарий: кто движется, где находится crosswalk, какая погода, скорость, видимость, поведение других участников. Затем нужно покрыть вариации, отрендерить или проиграть сцену, проверить физическую правдоподобность и записать labels.
Главный bottleneck часто находится в сценарном дизайне и validation. Если synthetic сцены слишком чистые, модель учится на красивых примерах и хуже ищет шумные реальные логи. Если сценарии задаются узко, система переобучается на шаблон и не ловит неожиданные варианты.
Для retrieval такие данные полезны как augmentation и hard negatives: похожие сцены с одним измененным условием помогают модели различать детали запроса. Финальное качество все равно проверяется на реальных логах и human-reviewed редких slices.
Теория
Synthetic data снижает дефицит редких примеров, но domain gap и сценарное покрытие остаются отдельными рисками качества.