경로 공간에서의 근접 정책 최적화와 슈뢰딩거 브리지
초록
본 논문은 확산·플로우 기반 생성 정책을 위한 PPO를 경로 공간으로 확장한 GSB‑PPO 프레임워크를 제안한다. 기존 PPO는 행동 확률비에 기반하지만, 생성 정책은 다단계 확률 과정으로 정의되므로 전체 생성 궤적에 대한 근접 규제가 필요하다. 저자는 이를 일반화 슈뢰딩거 브리지(GSB) 관점에서 해석하고, 클리핑 방식(GSB‑PPO‑Clip)과 패널티 방식(GSB‑PPO‑Penalty) 두 가지 목표함수를 설계한다. 실험에서는 패널티 기반 목표가 클리핑보다 학습 안정성과 성능에서 일관되게 우수함을 확인하였다.
상세 분석
이 연구는 온‑폴리시 강화학습에서 고차원 연속 제어 문제에 적용 가능한 생성 정책을 다루면서, 기존 PPO가 갖는 행동‑공간 비율 기반 근접 제약을 경로‑공간으로 일반화한다는 점에서 이론적·실용적 의미가 크다. 먼저, 생성 정책을 확산·플로우 모델의 역방향 마코프 체인으로 모델링하고, 이를 확률 경로 측정 (P_\theta(\mathbf{a}{0:N}\mid s)) 로 정의한다. 여기서 최종 행동 (a=\mathbf{a}0) 은 경로의 첫 번째 상태이며, 정책의 행동 분포는 전체 경로의 주변분포와 동일함을 식 (11)‑(13) 로 명시한다. 이러한 관점은 기존 PPO가 사용하던 행동‑비율 (r\theta(s,a)=\frac{\pi\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)}) 를 경로‑비율 (r_\theta(s,\mathbf{a}{0:N})=\prod{n=1}^N\frac{p_\theta(\mathbf{a}{n-1}|\mathbf{a}n,s)}{p{\theta{\text{old}}}(\mathbf{a}_{n-1}|\mathbf{a}_n,s)}) 로 자연스럽게 확장한다. 이때, 다단계 확률 전이의 누적 효과가 클리핑 파라미터 (\epsilon) 에 과도하게 민감해지는 문제를 발견하고, 이를 보완하기 위해 두 가지 설계가 제안된다.
첫 번째는 GSB‑PPO‑Clip으로, 기존 PPO의 클리핑 연산을 그대로 경로‑비율에 적용한다. 그러나 경로 길이가 길어질수록 로그 비율의 합산이 크게 변동하여 클리핑이 과도하게 작동하거나 거의 적용되지 않는 현상이 나타난다. 저자는 수치적 안정성을 위해 단계별 로그‑비율 클리핑을 추가했지만, 근본적인 근접 제약의 부정확성을 완전히 해소하지 못한다.
두 번째는 GSB‑PPO‑Penalty이다. 여기서는 경로‑비율을 그대로 사용하면서, 기존 정책과 새 정책 사이의 드리프트 함수 (f_\theta) 차이에 대한 MSE 형태의 경로 KL 근접 패널티 (R_{\text{MSE}}(\theta,\theta_{\text{old}})) 를 도입한다. 이는 일반화 슈뢰딩거 브리지에서 제시되는 “경로 분포는 레퍼런스 분포와 KL‑다이버전스로 가깝게 유지한다”는 아이디어와 일치한다. 패널티는 각 시간 단계의 드리프트 차이를 σ(t) 로 정규화하여, 학습 초기에 큰 변화를 억제하고 점진적인 업데이트를 가능하게 한다. 실험 결과, 패널티 기반 방법은 클리핑 대비 보상 신호의 변동성을 크게 감소시키며, 특히 복잡한 다중 모드 환경에서 수렴 속도와 최종 성능이 월등히 향상됨을 보여준다.
이 논문의 핵심 기여는 (1) 생성 정책을 경로‑공간 확률 측정으로 공식화하고, (2) PPO의 근접 업데이트를 경로‑공간으로 일반화한 두 가지 구체적 목표함수를 제시했으며, (3) 패널티 기반 접근이 클리핑보다 더 안정적이고 효율적인 학습을 제공한다는 실증적 증거를 제공했다는 점이다. 또한, GSB 관점을 활용해 PPO와 슈뢰딩거 브리지를 연결함으로써, 향후 경로‑공간 최적화 이론과 생성 모델 기반 강화학습 사이의 통합 연구에 중요한 토대를 마련한다.
댓글 및 학술 토론
Loading comments...
의견 남기기