Systematic exploration в RL
Что такое systematic exploration в reinforcement learning, зачем оно нужно и почему это проблема?
Короткий ответ
Systematic exploration - это управляемый выбор действий для изучения неизвестных, но потенциально полезных областей, а не случайный шум вокруг greedy policy.
Полный разбор
В RL агент видит данные, которые сам генерирует. Если он слишком рано станет greedy, он может никогда не узнать про хорошие действия, которые изначально кажутся плохими или редко встречаются. Systematic exploration пытается исследовать пространство действий с учетом uncertainty и потенциальной ценности информации.
Примеры: epsilon-greedy как базовый вариант, UCB, Thompson sampling, count-based exploration, curiosity/intrinsic rewards, ensembles и posterior sampling. Выбор зависит от размера action space, horizon, стоимости ошибки и наличия контекстных признаков.
Проблема в том, что exploration стоит reward прямо сейчас и может быть небезопасным. В production нужны constraints, offline evaluation, simulator или ограниченный rollout.
Теория
Exploration-exploitation trade-off особенно сложен, когда action space большой, horizon короткий или reward sparse.
Типичные ошибки
- Считать random exploration достаточным.
- Не учитывать стоимость небезопасных действий.
- Не связывать exploration с uncertainty.
Как отвечать на собеседовании
- Назови UCB/Thompson/epsilon-greedy и их ограничения.
- Скажи про safety constraints в production.