Свойства хорошего embedding space
Какими свойствами должны обладать embeddings для поиска, рекомендаций или сопоставления объектов?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Близость должна соответствовать смысловой похожести, пространство должно быть устойчивым, достаточно компактным, хорошо калиброванным под метрику и пригодным для retrieval.
Полный разбор
Хорошие embeddings сохраняют важные свойства исходного объекта: близкие объекты оказываются рядом, разные - далеко, а выбранная метрика действительно отражает целевую похожесть. Для image/recsys задач это может быть стиль, категория, визуальные детали или пользовательская совместимость.
Размерность должна быть достаточной для информации, но не чрезмерной: слишком большие embeddings дороже хранить, искать и обновлять. Еще важны нормализация, стабильность при небольших изменениях входа, отсутствие сильных collapsed clusters и качество nearest-neighbor retrieval.
Если пространство нужно для production retrieval, стоит говорить не только про качество модели, но и про ANN index, latency, memory, drift и периодический reindex.
Теория
Embedding space полезен, если геометрия пространства согласована с downstream-задачей и выбранной similarity metric.
Типичные ошибки
- Говорить только "похожие рядом" без метрики и downstream-задачи.
- Игнорировать размерность, latency и память.
- Не проверять качество retrieval на размеченных парах.
Как отвечать на собеседовании
- Назови cosine/dot product и нормализацию.
- Свяжи свойства embeddings с конкретной метрикой качества.