추론 시 강화학습으로 열린 재료 생성: OMatG‑IRL
초록
OMatG‑IRL은 흐름 기반 연속시간 생성 모델의 속도장에 직접 정책‑gradient 강화학습을 적용한 프레임워크이다. 점성 잡음으로 생성 동역학을 교란해 탐색을 가능하게 하면서 사전 학습된 모델의 기본 성능을 유지한다. 최초로 강화학습을 결정구조 예측(CSP) 문제에 적용해 에너지 기반 보상을 효과적으로 강화하고, 구성 조건에 의한 다양성을 자연스럽게 확보한다. 또한 시간‑의존적 속도‑annealing 스케줄을 학습해 샘플링 단계 수를 한 자릿수 감소시키며, 점수‑기반 방법과 동등한 성능을 달성한다.
상세 분석
본 논문은 연속시간 흐름‑매칭 및 stochastic interpolant(SI) 프레임워크를 기반으로 하는 OMatG 모델에, 점수(score)를 명시적으로 계산할 필요 없이 속도장(velocity field)만을 이용해 정책‑gradient 강화학습을 수행하는 OMatG‑IRL을 제안한다. 핵심 아이디어는 사전 학습된 속도장 bθref(t,x)에 작은 시간‑의존 잡음 σref(t)를 추가해 surrogate SDE를 구성하고, 이 SDE를 통해 여러 개의 stochastic rollout을 생성한다. 이러한 교란은 최종 구조의 매칭 지표(예: METRe/cRMSE)에 거의 영향을 주지 않으며, 따라서 보상 r(xt=1)을 안정적으로 평가할 수 있다.
RL에서는 각 구성(composition)마다 G개의 trajectory를 수집하고, 그룹‑상대 이점 Âi=ri−mean(ri)/std(ri)를 계산하는 GRPO(Group‑Relative Policy Optimization)를 사용한다. 이 이점은 전체 시간 단계에 동일하게 적용돼, 시간‑연속적인 정책 업데이트를 가능하게 한다. PPO‑스타일 클리핑 손실 JGRPO와 KL‑정규화 JKL를 결합해 정책 πθ를 안정적으로 개선한다.
점수‑기반 모델과 속도‑기반 모델 모두 동일한 강화학습 파이프라인에 적용 가능함을 실험적으로 입증한다. 특히, 속도‑기반 OMatG‑IRL은 별도의 다양성 보상 없이도 구성 조건에 의해 자연스럽게 구조 다양성을 유지한다. 이는 DNG(De Novo Generation)와 달리 CSP에서는 이미 구성이 고정돼 있어 다양성이 보상에 의존할 필요가 없기 때문이다.
또한, 저자는 시간‑의존적 속도‑annealing 스케줄 β(t)를 학습하도록 정책을 확장한다. 기존의 수작업 annealing 대비, 학습된 스케줄은 초기 고속 이동과 후반 정밀 조정을 자동으로 조절해, 통합 단계 수를 10배 이상 감소시키면서도 에너지 최소화와 구조 매칭 정확도를 유지한다.
전체적으로 OMatG‑IRL은 (1) 속도장만으로 정책‑gradient RL을 구현, (2) stochastic perturbation을 통한 탐색과 보상 평가, (3) GRPO와 PPO를 결합한 안정적 정책 업데이트, (4) 시간‑스케줄 학습을 통한 샘플링 효율성 향상이라는 네 가지 핵심 기여를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기