선호 기반 다목표 강화학습: 분해·다양성 기반 정책 최적화
초록
본 논문은 다목표 강화학습에서 단일 선호 조건부 정책이 파레토 전선을 완전하게 탐색하지 못하는 원인을 두 가지 구조적 문제(조기 스칼라화에 의한 그래디언트 간섭, 선호 공간 전반에 걸친 표현 붕괴)로 규명한다. 이를 해결하기 위해 PPO 기반의 D³PO 프레임워크를 제안한다. D³PO는 다목표별 멀티헤드 크리틱으로 원시 이득을 보존하고, 선호 가중치를 정책 업데이트의 후기 단계에 적용해 안정적인 크레딧 할당을 가능하게 한다. 또한 선호 차이와 행동 차이를 비례하도록 강제하는 스케일된 다양성 정규화를 도입해 모드 붕괴를 방지한다. 실험 결과, D³PO는 기존 단일·다중 정책 방법들을 능가하며, 단일 정책만으로도 높은 하이퍼볼륨과 기대 효용을 달성한다.
상세 분석
D³PO는 기존 PPO에 다목표 학습을 적용할 때 발생하는 두 가지 핵심 문제를 체계적으로 해결한다. 첫 번째는 “조기 스칼라화(Early Scalarization)”로, 여러 목표의 보상을 바로 가중합하면 상충하는 그래디언트가 서로 상쇄돼 학습이 불안정해진다. D³PO는 이를 피하기 위해 각 목표별로 독립적인 이득(Aᵢ)을 계산하고, PPO의 클리핑 서프라이즈 손실을 각각 적용한다. 이렇게 하면 각 목표의 원시 신호가 PPO의 안정화 메커니즘을 먼저 통과해 잡음이 감소한다. 두 번째 단계인 “후기 가중화(Late‑Stage Weighting)”에서는 정규화된 선호 벡터 ω를 사용해 각 목표 손실을 가중합한다. 즉, ω는 정책 파라미터에 대한 그래디언트가 아니라 이미 안정화된 서프라이즈 손실에만 곱해지므로, 목표 간 그래디언트 간섭이 최소화된다.
다음으로 제안된 “스케일된 다양성 정규화(Scaled Diversity Regularizer)”는 선호 공간 전반에 걸쳐 행동이 구별되도록 강제한다. 구체적으로, 서로 다른 선호 ω₁, ω₂에 대해 행동 분포 πθ(·|s,ω₁)와 πθ(·|s,ω₂) 사이의 KL 발산이 ‖ω₁‑ω₂‖와 비례하도록 손실을 설계한다. 이는 선호 차이가 클수록 정책이 더 큰 행동 변화를 보여야 함을 수학적으로 보장한다(정리 F.2). 결과적으로 멀티헤드 크리틱이 제공하는 풍부한 목표별 가치 정보를 유지하면서도, 정책 네트워크가 선호에 따라 동일한 모드에 수렴하는 “모드 붕괴” 현상을 방지한다.
아키텍처 측면에서 D³PO는 공유된 상태 인코더와 선호 인코더를 거쳐 d개의 헤드로 분기되는 크리틱을 사용한다. 각 헤드 V⁽ⁱ⁾ϕ는 무가중치 목표 i의 상태‑가치 V⁽ⁱ⁾(s,ω)를 예측한다. 이때 크리틱도 ω에 조건화되는 이유는, 정책이 ω에 따라 달라지므로 동일 상태라도 목표별 기대 보상이 ω에 의존하기 때문이다. 학습 과정은 (1) 트래젝터리 수집, (2) 목표별 GAE 계산, (3) 멀티헤드 크리틱 업데이트, (4) 정책의 per‑objective PPO 서프라이즈 손실 계산, (5) 후기 가중화와 다양성 정규화를 포함한 최종 손실로 파라미터 θ 업데이트 순으로 진행된다.
실험에서는 Hopper, Ant, Humanoid 등 고차원 연속 제어 환경과 다목표(3~5 목표) 설정을 사용해 기존 단일 정책 방법(Pareto‑Conditioned Networks, PD‑MORL 등)과 다중 정책 방법(Curriculum‑based MORL, GPI 기반 방법 등)을 비교했다. D³PO는 하이퍼볼륨(HV)과 기대 효용(EU)에서 일관되게 최고 수준을 기록했으며, 특히 선호 공간 전반에 걸친 솔루션 밀도(스파시티)에서도 우수했다. Ablation 실험에서는 후기 가중화 없이 조기 스칼라화만 적용했을 때 파레토 전선이 급격히 축소되고, 다양성 정규화 없이 학습했을 때 선호가 변해도 행동이 거의 동일해지는 현상이 확인되었다.
이러한 설계는 온‑폴리시 PPO의 샘플 효율성을 유지하면서도, 다목표 환경에서 요구되는 정밀한 크레딧 할당과 행동 다양성을 동시에 만족한다는 점에서 의미가 크다. 다만 현재 구현은 선호 벡터가 단순히 가중합 형태이며, 비선형 혹은 비가중합 스칼라화(예: Tchebycheff)와의 호환성은 추가 연구가 필요하다. 또한, 다양성 정규화의 스케일링 파라미터 λ에 대한 민감도 분석이 제한적이어서, 실제 적용 시 하이퍼파라미터 튜닝이 요구될 수 있다. 전반적으로 D³PO는 단일 정책으로 다목표 강화학습을 구현하려는 연구자와 실무자에게 강력한 베이스라인을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기