RL для моделирования молекул

Как сформулировать RL-задачу для оптимизации молекул и почему direct optimization может быть недостаточной?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Состояние - молекула/граф, действие - допустимая модификация, reward связан с целевым свойством и штрафами за невалидность. Direct optimization часто игнорирует constraints и trajectory.

Полный разбор

RL-постановка задает состояние как текущую молекулу или ее графовое представление, действия как допустимые изменения структуры, а reward как комбинацию целевого свойства, валидности, synthesizability, токсичности и diversity. Среда проверяет, что шаг приводит к допустимой молекуле. Прямая оптимизация одного score может находить артефакты: невалидные структуры, нереалистичные модификации или молекулы вне допустимого химического пространства. RL полезен, когда важны последовательные изменения, constraints на действия и trade-off между несколькими критериями.