Как интерпретировать backtest при возможном leakage

Как сравнивать модели прогноза, если LLM-extractor может знать будущие факты из pretraining?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Сравнение остается полезным, если явно ограничить evidence path, добавить leakage flags и сравнивать не LLM “как oracle”, а extractive pipeline с проверяемыми источниками.

Полный разбор

Backtest нельзя трактовать как честную оценку будущего, если LLM могла видеть future facts. Но его можно использовать для сравнения controlled variants: один и тот же document set, одинаковый retrieval cutoff, одинаковые schema validators и одинаковая табличная модель. Отдельно нужно считать leakage-sensitive slices: события после cutoff, документы с поздней публикацией, редкие крупные изменения. Если LLM-фичи дают слишком резкий прирост именно на таких срезах, результат требует ручной проверки. Production-критерий - не только RMSE/MAPE, но и auditability: можно ли показать, из какого доступного источника появилась фича.

Исторический benchmark для LLM-extraction должен измерять и качество прогноза, и доверие к источнику признаков.