Retraining и обновление векторного индекса
Каталог и фотографии постоянно меняются. Как организовать переобучение модели и обновление ANN-индекса для visual search?
Короткий ответ
Разделить cadence модели и индекса: новые товары индексировать инкрементально, модель выкатывать версионированно с backfill embeddings и shadow checks.
Полный разбор
Пайплайн: ingest новых/измененных фото, quality checks, crop/attribute extraction, embedding, запись в feature store/vector store, инкрементальное обновление ANN. Переобучение модели может быть weekly/monthly или по drift-сигналам, но новая версия требует backfill embedding всего активного каталога или dual-index migration.
Нужны versioned embeddings, rollback, мониторинг latency/recall, доли stale items, failed image processing, distribution drift и quality на holdout queries.
Теория
В vector search модель и индекс являются связанным артефактом: нельзя бесконтрольно смешивать embeddings разных версий.
Типичные ошибки
- Переобучить модель и оставить старый индекс.
- Не иметь rollback для индекса.
- Не считать coverage активного каталога.
Как отвечать на собеседовании
- Подчеркни версионирование: model_version, embedding_version, index_version.