Leakage из pretraining LLM на историческом backtest

Почему исторический backtest LLM-фичей может быть нечестным, даже если документы подаются с правильными датами?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

LLM могла видеть будущие отчеты или новости на pretraining. Тогда при backtest она достает знание не из переданного документа, а из параметров модели.

Полный разбор

В классическом backtest мы ограничиваем модель информацией, доступной на дату прогноза. У LLM появляется дополнительный канал: pretraining мог включать будущие отчеты, новости, статьи или агрегированные датасеты. Даже если prompt содержит только старый документ, модель может восстановить будущий факт из параметрической памяти. Снижение риска: использовать модели/снэпшоты с известной датой обучения, требовать citations/source spans, запрещать ответы без опоры на документ, сравнивать с extractive baseline и делать ablation, где LLM получает только документные фрагменты после retrieval. Метрика backtest должна отдельно учитывать leakage risk.

Для LLM в time-series задачах leakage может возникать не только в features, но и в самой pretrained модели.