Event stream вместо одного summary из LLM
Как превратить документы в признаки для прогноза: один summary, JSON-state или ленту событий?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Надежнее извлекать event stream и обновлять JSON-state: событие, объект, период влияния, величина, источник и confidence. Summary слишком трудно валидировать.
Полный разбор
Для прогноза полезнее не текстовый summary, а структурная лента событий. Каждое событие содержит рудник, тип события, дату публикации, affected period, направление влияния, magnitude, confidence и ссылку на источник. Затем deterministic слой обновляет JSON-state рудника.
Такой дизайн разделяет обязанности. LLM отвечает за извлечение кандидатов из текста, rules/schema validator проверяет формат и допустимые значения, feature pipeline превращает state в табличные признаки. Это упрощает аудит, backtest и ручную проверку спорных событий.
Теория
Structured extraction снижает риск hallucination в downstream-модели: модель видит проверяемые поля и source references, а не свободный текст.