Назад к подготовке

ВопросСложнаяmlsd-generalML System Design на техническом собеседовании

Как использовать LLM для фичей в прогнозе производства

Есть прогноз производства по рудникам/активам. В отчетах компаний есть текст, планы роста, графики и будущие ожидания. Как использовать LLM, чтобы улучшить табличную модель, но не заменить ее полностью?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

LLM лучше использовать как extractor структурированных признаков из отчетов: планы роста/падения, guidance, capex, запуск/остановка активов, риски. Финальный прогноз может делать бустинг или другая табличная модель.

Полный разбор

Сильная архитектура разделяет извлечение информации и прогноз. LLM читает отчет, таблицы или графики и превращает их в структурированные признаки: плановый рост производства, горизонт плана, confidence, наличие guidance, события по конкретному активу, задержки, capex, regulatory risks. Затем эти признаки попадают в табличную модель вместе с историей добычи, ценами, сезонностью, регионом, типом актива и макро-факторами. Это сохраняет интерпретируемость и позволяет валидировать ML-модель на historical backtesting. Важно не просить LLM "сделать прогноз" без контроля. Лучше задать схему вывода, требовать цитаты/страницы источника, отдельное поле missing/unknown и не использовать знания модели вне данного документа.

Теория

Это hybrid MLSD: LLM как information extraction layer, а не как oracle. Такая схема снижает риск hallucination и лучше вписывается в табличный forecast pipeline.

Типичные ошибки

Попросить LLM сразу предсказывать production без структурированной схемы.
Не отделить evidence из отчета от предположений модели.
Не объяснить, как эти фичи будут валидироваться исторически.

Как отвечать на собеседовании

Скажи: LLM извлекает фичи, бустинг прогнозирует.
Обязательно добавь schema, citations и missing value policy.