RL для моделирования молекул
Как сформулировать RL-задачу для оптимизации молекул и почему direct optimization может быть недостаточной?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Состояние - молекула/граф, действие - допустимая модификация, reward связан с целевым свойством и штрафами за невалидность. Direct optimization часто игнорирует constraints и trajectory.
Полный разбор
RL-постановка задает состояние как текущую молекулу или ее графовое представление, действия как допустимые изменения структуры, а reward как комбинацию целевого свойства, валидности, synthesizability, токсичности и diversity. Среда проверяет, что шаг приводит к допустимой молекуле.
Прямая оптимизация одного score может находить артефакты: невалидные структуры, нереалистичные модификации или молекулы вне допустимого химического пространства. RL полезен, когда важны последовательные изменения, constraints на действия и trade-off между несколькими критериями.