ВопросMediumml-researchРеальный собес

RL-агент для оптимизации молекул

Кандидат рассказывает про RL-проект в drug discovery. Как объяснить постановку: состояние, действие, среда, reward и метрики качества?

Короткий ответ

Состояние - текущая молекула или ее графовое представление, действие - изменение геометрии/структуры, среда считает энергию, reward связан со снижением энергии и устойчивостью состояния.

Полный разбор

Хороший ответ начинается с простой формулировки задачи: агент должен последовательностью действий привести молекулу к более устойчивому состоянию. Состояние можно представлять графом молекулы, координатами атомов и историей предыдущих шагов. Действие зависит от среды: сдвиг координат, изменение конформации или другой допустимый шаг в непрерывном пространстве.

Среда или физический симулятор возвращает энергию и другие величины, по которым строится reward. Если энергия уменьшается и состояние становится устойчивее, reward положительный; если агент делает физически плохие или бесполезные шаги, reward штрафуется.

В интервью важно отделить ML-часть от domain simulation: RL не обязан иметь заранее размеченный датасет, если есть среда, в которой можно считать целевую функцию. Метрики - доля достигнутого оптимума, число шагов до сходимости, стабильность результата и сравнение с baseline.

Теория

Это типичная continuous-control RL постановка: policy учится выбирать действия в среде, а качество зависит не от accuracy, а от траектории оптимизации.

Типичные ошибки

Говорить только "обучали GNN" без state/action/reward.
Не объяснить, откуда берется обратная связь, если нет классического датасета.
Смешивать финальную энергию, reward и бизнес-метрику.

Как отвечать на собеседовании

Сначала проговори MDP: state, action, reward, transition.
Назови baseline и метрику сходимости, а не только архитектуру.