Tabular baseline для прогноза добычи
Нужно прогнозировать поквартальную добычу по рудникам. Какие признаки и baseline-модель стоит построить до LLM-слоя?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Базовый слой строится на истории добычи, руднике, регионе, компании, capacity, макро- и рыночных признаках. Для MVP достаточно бустинга или регуляризованной линейной модели с time-based validation.
Полный разбор
Сначала нужен честный табличный baseline без LLM. Единица прогноза - рудник и квартал. В признаки входят история добычи, лаги и rolling statistics, регион, оператор/владелец, тип рудника, capacity, сезонность, цены на металл и публичные макро- или отраслевые сигналы.
Модель можно начать с CatBoost/LightGBM или регуляризованной линейной модели. Split должен идти по времени и по рудникам аккуратно: нельзя случайно смешивать будущие кварталы в train. Такой baseline задает нижнюю границу качества и показывает, где текстовые события действительно добавляют сигнал.
Теория
Для forecasting system design baseline нужен не ради финального качества, а как контроль leakage, sanity check фичей и якорь для оценки добавленной ценности LLM-extraction.