RL-агент для оптимизации молекул
Кандидат рассказывает про RL-проект в drug discovery. Как объяснить постановку: состояние, действие, среда, reward и метрики качества?
Короткий ответ
Состояние - текущая молекула или ее графовое представление, действие - изменение геометрии/структуры, среда считает энергию, reward связан со снижением энергии и устойчивостью состояния.
Полный разбор
Хороший ответ начинается с простой формулировки задачи: агент должен последовательностью действий привести молекулу к более устойчивому состоянию. Состояние можно представлять графом молекулы, координатами атомов и историей предыдущих шагов. Действие зависит от среды: сдвиг координат, изменение конформации или другой допустимый шаг в непрерывном пространстве.
Среда или физический симулятор возвращает энергию и другие величины, по которым строится reward. Если энергия уменьшается и состояние становится устойчивее, reward положительный; если агент делает физически плохие или бесполезные шаги, reward штрафуется.
В интервью важно отделить ML-часть от domain simulation: RL не обязан иметь заранее размеченный датасет, если есть среда, в которой можно считать целевую функцию. Метрики - доля достигнутого оптимума, число шагов до сходимости, стабильность результата и сравнение с baseline.
Теория
Это типичная continuous-control RL постановка: policy учится выбирать действия в среде, а качество зависит не от accuracy, а от траектории оптимизации.
Типичные ошибки
- Говорить только "обучали GNN" без state/action/reward.
- Не объяснить, откуда берется обратная связь, если нет классического датасета.
- Смешивать финальную энергию, reward и бизнес-метрику.
Как отвечать на собеседовании
- Сначала проговори MDP: state, action, reward, transition.
- Назови baseline и метрику сходимости, а не только архитектуру.