Какие сигналы извлекать из PDF-отчетов
Какие факты из PDF-отчетов компаний полезны для прогноза добычи, и как отличать их от шумного текста?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Нужны не пересказы, а структурные события: production guidance, maintenance, outages, capacity expansion, grade, ore quality, delays и даты влияния на кварталы.
Полный разбор
Из PDF стоит извлекать факты, которые меняют будущий ряд: production guidance, planned maintenance, shutdowns, expansion projects, grade/ore quality, recovery rate, capex milestones, delays, accidents и management commentary с привязкой к руднику и периоду.
Фича должна быть структурной: тип события, рудник, дата публикации, affected quarters, direction, magnitude, source span и confidence. Свободный summary отчета хуже, потому что его сложно валидировать и использовать в табличной модели. Для контроля качества нужны ссылки на страницу/фрагмент документа и правила на невозможные значения.
Теория
LLM полезна как extractor событий. Финальная forecasting-модель должна получать проверяемые признаки, а не неструктурированный текст.