Leakage из pretraining LLM на историческом backtest
Почему исторический backtest LLM-фичей может быть нечестным, даже если документы подаются с правильными датами?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
LLM могла видеть будущие отчеты или новости на pretraining. Тогда при backtest она достает знание не из переданного документа, а из параметров модели.
Полный разбор
В классическом backtest мы ограничиваем модель информацией, доступной на дату прогноза. У LLM появляется дополнительный канал: pretraining мог включать будущие отчеты, новости, статьи или агрегированные датасеты. Даже если prompt содержит только старый документ, модель может восстановить будущий факт из параметрической памяти.
Снижение риска: использовать модели/снэпшоты с известной датой обучения, требовать citations/source spans, запрещать ответы без опоры на документ, сравнивать с extractive baseline и делать ablation, где LLM получает только документные фрагменты после retrieval. Метрика backtest должна отдельно учитывать leakage risk.
Теория
Для LLM в time-series задачах leakage может возникать не только в features, но и в самой pretrained модели.