Как использовать LLM для фичей в прогнозе производства
Есть прогноз производства по рудникам/активам. В отчетах компаний есть текст, планы роста, графики и будущие ожидания. Как использовать LLM, чтобы улучшить табличную модель, но не заменить ее полностью?
Короткий ответ
LLM лучше использовать как extractor структурированных признаков из отчетов: планы роста/падения, guidance, capex, запуск/остановка активов, риски. Финальный прогноз может делать бустинг или другая табличная модель.
Полный разбор
Сильная архитектура разделяет извлечение информации и прогноз. LLM читает отчет, таблицы или графики и превращает их в структурированные признаки: плановый рост производства, горизонт плана, confidence, наличие guidance, события по конкретному активу, задержки, capex, regulatory risks.
Затем эти признаки попадают в табличную модель вместе с историей добычи, ценами, сезонностью, регионом, типом актива и макро-факторами. Это сохраняет интерпретируемость и позволяет валидировать ML-модель на historical backtesting.
Важно не просить LLM "сделать прогноз" без контроля. Лучше задать схему вывода, требовать цитаты/страницы источника, отдельное поле missing/unknown и не использовать знания модели вне данного документа.
Теория
Это hybrid MLSD: LLM как information extraction layer, а не как oracle. Такая схема снижает риск hallucination и лучше вписывается в табличный forecast pipeline.
Типичные ошибки
- Попросить LLM сразу предсказывать production без структурированной схемы.
- Не отделить evidence из отчета от предположений модели.
- Не объяснить, как эти фичи будут валидироваться исторически.
Как отвечать на собеседовании
- Скажи: LLM извлекает фичи, бустинг прогнозирует.
- Обязательно добавь schema, citations и missing value policy.