Как интерпретировать backtest при возможном leakage
Как сравнивать модели прогноза, если LLM-extractor может знать будущие факты из pretraining?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Сравнение остается полезным, если явно ограничить evidence path, добавить leakage flags и сравнивать не LLM “как oracle”, а extractive pipeline с проверяемыми источниками.
Полный разбор
Backtest нельзя трактовать как честную оценку будущего, если LLM могла видеть future facts. Но его можно использовать для сравнения controlled variants: один и тот же document set, одинаковый retrieval cutoff, одинаковые schema validators и одинаковая табличная модель.
Отдельно нужно считать leakage-sensitive slices: события после cutoff, документы с поздней публикацией, редкие крупные изменения. Если LLM-фичи дают слишком резкий прирост именно на таких срезах, результат требует ручной проверки. Production-критерий - не только RMSE/MAPE, но и auditability: можно ли показать, из какого доступного источника появилась фича.
Теория
Исторический benchmark для LLM-extraction должен измерять и качество прогноза, и доверие к источнику признаков.