Как выбрать text encoder для запросов к дорожным сценам

Пользователь пишет запросы вроде "pedestrian crossing at night". Как выбрать и адаптировать text encoder для поиска дорожных сцен?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Стартует general sentence encoder или CLIP text tower, затем добавляются domain vocabulary, query normalization и fine-tuning на query-segment pairs с hard negatives.

Полный разбор

Для первого слоя можно взять готовый sentence transformer или text tower мультимодальной модели. Он быстро кодирует короткие запросы и дает baseline для semantic matching. Затем команда проверяет, понимает ли модель доменные слова: crosswalk, lane merge, unprotected left turn, occlusion, cyclist, emergency vehicle. Если general encoder путает важные детали, его дообучают на внутренних query-segment pairs. Пары приходят из ручной разметки, scenario tags, query logs и synthetic captions после проверки. Hard negatives особенно важны: например, сцена с пешеходом днем должна быть близкой, но ниже сцены с пешеходом ночью, если запрос явно про night. Перед encoder полезно поставить простую нормализацию запроса: синонимы, доменные термины, spelling, фильтры по времени/локации и language handling. Это снижает нагрузку на модель и делает поведение поиска понятнее.

Text encoder в retrieval отвечает не за генерацию текста, а за стабильное представление intent пользователя. Для safety-critical домена general embeddings часто требуют доменной адаптации.