Event stream вместо одного summary из LLM

Как превратить документы в признаки для прогноза: один summary, JSON-state или ленту событий?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Надежнее извлекать event stream и обновлять JSON-state: событие, объект, период влияния, величина, источник и confidence. Summary слишком трудно валидировать.

Полный разбор

Для прогноза полезнее не текстовый summary, а структурная лента событий. Каждое событие содержит рудник, тип события, дату публикации, affected period, направление влияния, magnitude, confidence и ссылку на источник. Затем deterministic слой обновляет JSON-state рудника. Такой дизайн разделяет обязанности. LLM отвечает за извлечение кандидатов из текста, rules/schema validator проверяет формат и допустимые значения, feature pipeline превращает state в табличные признаки. Это упрощает аудит, backtest и ручную проверку спорных событий.

Structured extraction снижает риск hallucination в downstream-модели: модель видит проверяемые поля и source references, а не свободный текст.