Пройти собеседование: Infomediji: CV, VR-видео, сегментация и запуск на edge-устройствах

1Кейс9 мин

Как уменьшить мерцание маски в видео/VR

Модель сегментирует объект в видео, но маска мерцает и ломается при взаимодействии с человеком. Что делать?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Добавить temporal consistency: tracking, optical flow, video segmentation, сглаживание logits/masks, depth cues и отдельную разметку interacted objects.

Подробный разбор

Мерцание часто появляется, когда модель предсказывает каждый кадр независимо. Первый слой решения - temporal consistency: сглаживать logits или masks во времени, трекать объект, использовать optical flow, video segmentation архитектуру или память предыдущих кадров.

Если объект взаимодействует с человеком, нужны примеры таких случаев в данных: occlusion, touch, overlap, motion blur. Можно доразметить interacted objects, использовать pseudo-labels от сильной модели и отдельно мониторить качество на этих сценариях.

Depth map помогает понять порядок слоев и отделить объект от фона, но не является серебряной пулей: depth estimation ошибается, а объекты на похожей глубине все равно могут смешиваться. Поэтому depth лучше использовать как дополнительный сигнал, а не как единственный postprocessing.

Типичные ошибки

Улучшать только single-frame IoU и не смотреть flicker.
Доверять depth map без проверки ошибок глубины.
Не иметь отдельного validation slice для occlusion/interactions.

2Кейс9 мин

Domain adaptation с VR/fisheye на обычное видео

Есть модель для first-person VR/fisheye, а нужно работать на flat third-person видео. Как переносить качество?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Нужно уменьшить gap доменов: перепроекции/аугментации, сильный pretrained backbone, pseudo-labeling, небольшой labeled target set и валидация на целевом видео.

Подробный разбор

Модель, обученная на VR/fisheye, видит другую геометрию, поле зрения, motion pattern, scale объектов и артефакты. Можно попробовать перепроецировать VR в flat-view или, наоборот, аугментировать flat data под fisheye, но полностью это gap не закроет.

Практичный план: взять сильный pretrained/self-supervised backbone, собрать небольшой labeled target set, использовать pseudo-labeling сильной teacher-моделью, дообучить head или всю модель с осторожным learning rate, добавить augmentations по blur, distortion, perspective, lighting.

Оценивать нужно на целевом домене. Если нет target labels, можно начать с human review, active learning и error buckets: occlusion, small objects, fast motion, edge cases.

Типичные ошибки

Считать fisheye и обычное видео одним доменом.
Не собирать даже маленький target validation set.
Переиспользовать thresholds без calibration.

3Вопрос9 мин

CV-модель на edge-устройстве

Что важно при запуске CV-модели на edge-устройстве или VR-гарнитуре?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Открыть отдельную страницу вопроса

Показать разбор

Короткий ответ

Нужно уложиться в latency, memory и power budget: экспорт ONNX/TensorRT/CoreML, quantization/distillation, profiling на устройстве и контроль качества после сжатия.

Подробный разбор

Запуск на edge-устройстве начинается с бюджета: сколько миллисекунд на кадр, какое разрешение, сколько памяти, какая батарея и какие аппаратные ускорители доступны. Архитектура, которая хороша на серверной GPU, может быть непригодна для headset или mobile chip.

Обычно делают экспорт в ONNX/TensorRT/CoreML/TFLite, quantization FP16/INT8, pruning/distillation, уменьшение input resolution, tiled inference или lightweight backbone. После каждого сжатия нужно заново измерять качество, особенно на сложных slice: motion, occlusion, low light.

Для VR отдельно важны stereo/depth и pose. При повороте головы близкие объекты меняют видимый размер и положение сильнее дальних, поэтому depth-aware correction и стабильная геометрия могут быть важнее raw segmentation score.

Типичные ошибки

Мерить latency только на dev GPU.
Сжимать модель без quality regression на целевых slice.
Не учитывать stereo/depth геометрию VR.