К обычному разбору
Тренировка по собеседованиюТехническое собеседованиеInfomediji2025-12-05

Infomediji: CV, VR-видео, сегментация и запуск на edge-устройствах

Идите сверху вниз: сначала попробуйте сами, затем откройте разбор. Если шаг с кодом, пишите решение прямо здесь и запускайте проверки на странице.

Шагов
3
Вопросов
3
Задач
0
1Кейс9 мин

Как уменьшить мерцание маски в видео/VR

Модель сегментирует объект в видео, но маска мерцает и ломается при взаимодействии с человеком. Что делать?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Показать разбор

Короткий ответ

Добавить temporal consistency: tracking, optical flow, video segmentation, сглаживание logits/masks, depth cues и отдельную разметку interacted objects.

Подробный разбор

Мерцание часто появляется, когда модель предсказывает каждый кадр независимо. Первый слой решения - temporal consistency: сглаживать logits или masks во времени, трекать объект, использовать optical flow, video segmentation архитектуру или память предыдущих кадров.

Если объект взаимодействует с человеком, нужны примеры таких случаев в данных: occlusion, touch, overlap, motion blur. Можно доразметить interacted objects, использовать pseudo-labels от сильной модели и отдельно мониторить качество на этих сценариях.

Depth map помогает понять порядок слоев и отделить объект от фона, но не является серебряной пулей: depth estimation ошибается, а объекты на похожей глубине все равно могут смешиваться. Поэтому depth лучше использовать как дополнительный сигнал, а не как единственный postprocessing.

Типичные ошибки

  • Улучшать только single-frame IoU и не смотреть flicker.
  • Доверять depth map без проверки ошибок глубины.
  • Не иметь отдельного validation slice для occlusion/interactions.
2Кейс9 мин

Domain adaptation с VR/fisheye на обычное видео

Есть модель для first-person VR/fisheye, а нужно работать на flat third-person видео. Как переносить качество?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Показать разбор

Короткий ответ

Нужно уменьшить gap доменов: перепроекции/аугментации, сильный pretrained backbone, pseudo-labeling, небольшой labeled target set и валидация на целевом видео.

Подробный разбор

Модель, обученная на VR/fisheye, видит другую геометрию, поле зрения, motion pattern, scale объектов и артефакты. Можно попробовать перепроецировать VR в flat-view или, наоборот, аугментировать flat data под fisheye, но полностью это gap не закроет.

Практичный план: взять сильный pretrained/self-supervised backbone, собрать небольшой labeled target set, использовать pseudo-labeling сильной teacher-моделью, дообучить head или всю модель с осторожным learning rate, добавить augmentations по blur, distortion, perspective, lighting.

Оценивать нужно на целевом домене. Если нет target labels, можно начать с human review, active learning и error buckets: occlusion, small objects, fast motion, edge cases.

Типичные ошибки

  • Считать fisheye и обычное видео одним доменом.
  • Не собирать даже маленький target validation set.
  • Переиспользовать thresholds без calibration.
3Вопрос9 мин

CV-модель на edge-устройстве

Что важно при запуске CV-модели на edge-устройстве или VR-гарнитуре?

Ответьте без подсказки

Сначала проговорите ответ вслух или тезисами.

Запишите черновик

Формулы, план решения, риски и примеры.

Сравните с разбором

Откройте разбор только после своей попытки.

Показать разбор

Короткий ответ

Нужно уложиться в latency, memory и power budget: экспорт ONNX/TensorRT/CoreML, quantization/distillation, profiling на устройстве и контроль качества после сжатия.

Подробный разбор

Запуск на edge-устройстве начинается с бюджета: сколько миллисекунд на кадр, какое разрешение, сколько памяти, какая батарея и какие аппаратные ускорители доступны. Архитектура, которая хороша на серверной GPU, может быть непригодна для headset или mobile chip.

Обычно делают экспорт в ONNX/TensorRT/CoreML/TFLite, quantization FP16/INT8, pruning/distillation, уменьшение input resolution, tiled inference или lightweight backbone. После каждого сжатия нужно заново измерять качество, особенно на сложных slice: motion, occlusion, low light.

Для VR отдельно важны stereo/depth и pose. При повороте головы близкие объекты меняют видимый размер и положение сильнее дальних, поэтому depth-aware correction и стабильная геометрия могут быть важнее raw segmentation score.

Типичные ошибки

  • Мерить latency только на dev GPU.
  • Сжимать модель без quality regression на целевых slice.
  • Не учитывать stereo/depth геометрию VR.