Назад к подготовке

Связывание событий из нескольких документов

Один факт о руднике встречается в годовом отчете, презентации и call transcript. Как объединить эти источники в один forecasting state?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Нужны entity resolution по руднику/компании, event deduplication, приоритет источников, temporal ordering и хранение conflicting evidence.

Полный разбор

Multi-document слой сначала нормализует сущности: рудник, компания, оператор, регион и период. Затем события дедуплицируются по типу, объекту и временному окну. Если источники расходятся, state должен хранить конфликт, а не молча выбирать последнее значение.

Приоритет источников можно задать правилами: audited annual report выше новости, свежий quarterly update выше старого guidance, но sudden outage из news может быть быстрее официального отчета. Для модели важны не только итоговые поля, но и признаки качества: число источников, recency, confidence и наличие противоречий.

Теория

Multi-document synthesis - это не “склеить summaries”, а event/entity pipeline с версионированием и конфликтами.