Как строить эмбеддинги поставщиков и чем опасна многошаговая агрегация
Поставщика можно представить через прошлые заявки, профиль и категории. Как построить представление поставщика и какие проблемы есть у averaging request embeddings?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Представление поставщика лучше строить из profile, category/geo distributions, response history и агрегированных сигналов по заявкам; простое среднее embeddings теряет интерпретируемость и быстро устаревает.
Полный разбор
Простая идея - взять все заявки, где поставщик участвовал, и усреднить request embeddings. Это может дать baseline, но у него много проблем: embedding меняется после новых событий, смешивает разные домены и категории, плохо объясняется заказчику, теряет multimodal/structured признаки и может переусреднить поставщика, который работает в нескольких нишах.
Более надежное representation: признаки профиля поставщика, served geographies, category distribution, response/bid/win rates, recency, история по конкретным заказчикам, price/service constraints, textual description и агрегаты по successful requests. Можно иметь несколько vectors или feature blocks вместо одного "super embedding".
Для retrieval можно использовать вектор поставщика, но для final ranker стоит сохранить interpretable features. В B2B важна debuggability: почему поставщик показан, почему он подходит закупочной заявке, какие constraints сработали.
Теория
Embedding aggregation удобна, но может скрыть причинные и бизнесовые признаки. В production recommender systems часто комбинируют dense retrieval с interpretable structured features в ranker.
Типичные ошибки
- Считать average request embedding полноценным профилем поставщика.
- Не учитывать recency и поставщиков, работающих в нескольких нишах.
- Не продумать объяснимость и debug.
Как отвечать на собеседовании
- Назови average embeddings как baseline, но сразу перечисли его риски.
- Предложи structured aggregates для ranker и explanations.