Почему RL в трейдинге опасен

Какие риски возникают при применении RL к trading/market-making задачам?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Главный риск - неверная среда. Агент оптимизирует симулятор, а не рынок, переобучается на микроструктурные артефакты и не учитывает impact, latency и regime shifts.

Полный разбор

RL в трейдинге требует среды, которая реалистично моделирует order book, latency, fills, transaction costs, market impact, queue position и поведение других участников. Если симулятор неточен, агент учится эксплуатировать его слабости, а не зарабатывать на реальном рынке. Дополнительные риски: non-stationarity, редкие стресс-сценарии, leakage через будущие данные, нестабильный reward и сложность offline evaluation. Поэтому RL-идею обычно сравнивают с supervised/bandit/baseline стратегиями, добавляют risk limits и тестируют на walk-forward slices с консервативным rollout.