К тренажеру
ВопросMediumml-productionРеальный собес

Retraining и обновление векторного индекса

Каталог и фотографии постоянно меняются. Как организовать переобучение модели и обновление ANN-индекса для visual search?

Короткий ответ

Разделить cadence модели и индекса: новые товары индексировать инкрементально, модель выкатывать версионированно с backfill embeddings и shadow checks.

Полный разбор

Пайплайн: ingest новых/измененных фото, quality checks, crop/attribute extraction, embedding, запись в feature store/vector store, инкрементальное обновление ANN. Переобучение модели может быть weekly/monthly или по drift-сигналам, но новая версия требует backfill embedding всего активного каталога или dual-index migration.

Нужны versioned embeddings, rollback, мониторинг latency/recall, доли stale items, failed image processing, distribution drift и quality на holdout queries.

Теория

В vector search модель и индекс являются связанным артефактом: нельзя бесконтрольно смешивать embeddings разных версий.

Типичные ошибки

  • Переобучить модель и оставить старый индекс.
  • Не иметь rollback для индекса.
  • Не считать coverage активного каталога.

Как отвечать на собеседовании

  • Подчеркни версионирование: model_version, embedding_version, index_version.