Назад к подготовке

Tabular baseline для прогноза добычи

Нужно прогнозировать поквартальную добычу по рудникам. Какие признаки и baseline-модель стоит построить до LLM-слоя?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Базовый слой строится на истории добычи, руднике, регионе, компании, capacity, макро- и рыночных признаках. Для MVP достаточно бустинга или регуляризованной линейной модели с time-based validation.

Полный разбор

Сначала нужен честный табличный baseline без LLM. Единица прогноза - рудник и квартал. В признаки входят история добычи, лаги и rolling statistics, регион, оператор/владелец, тип рудника, capacity, сезонность, цены на металл и публичные макро- или отраслевые сигналы.

Модель можно начать с CatBoost/LightGBM или регуляризованной линейной модели. Split должен идти по времени и по рудникам аккуратно: нельзя случайно смешивать будущие кварталы в train. Такой baseline задает нижнюю границу качества и показывает, где текстовые события действительно добавляют сигнал.

Теория

Для forecasting system design baseline нужен не ради финального качества, а как контроль leakage, sanity check фичей и якорь для оценки добавленной ценности LLM-extraction.