상태 점유도 기반 정책 압축으로 행동 다양성 향상

본 논문은 기존 행동 압축 방법인 Action‑based Policy Compression(APC)의 즉시 행동 매칭 손실이 장기 행동 유사성을 제대로 반영하지 못한다는 한계를 지적하고, 상태 점유도(occupancy) 분포를 직접 매칭하는 Occupancy‑based Policy Compression(OPC)를 제안한다. 정책 집합을 정보‑이론적 고유성 점수로 선별하고, 혼합 점유도 분포 간 KL 발산을 차별화 가능한 방식으로 최소화함으로써 …

저자: Andrea Fraschini, Davide Tenedini, Riccardo Zamboni

상태 점유도 기반 정책 압축으로 행동 다양성 향상
본 논문은 “Unsupervised Behavioral Compression: Learning Low‑Dimensional Policy Manifolds through State‑Occupancy Matching”이라는 제목으로, 고차원 정책 파라미터 공간의 기능적 중복성을 해결하고자 하는 연구이다. 저자들은 기존의 Action‑based Policy Compression(APC) 프레임워크가 즉시 행동 매칭을 손실 함수로 사용함으로써 장기적인 행동 유사성을 제대로 반영하지 못한다는 근본적인 한계를 지적한다. APC는 정책 파라미터 θ를 저차원 잠재 변수 z에 매핑하는 생성 모델 g(z)를 학습하고, 복원 손실을 정책의 즉시 행동 분포 간 KL 발산으로 정의한다. 하지만 즉시 행동 차이는 연속적인 의사결정 과정에서 발생하는 오차 누적을 무시하기 때문에, 비슷한 행동을 보이는 정책이라도 실제로는 전혀 다른 상태 점유도를 가질 수 있다. 이를 극복하기 위해 저자들은 Occupancy‑based Policy Compression(OPC)이라는 새로운 프레임워크를 제안한다. OPC는 APC와 동일한 3단계 파이프라인(데이터셋 구축, 잠재 행동 압축, 잠재 공간 최적화)을 유지하면서, 두 가지 핵심 변화를 도입한다. 1. **데이터셋 큐레이션** - 기존 APC는 행동 공간에서 k‑NN 기반 새로움 탐색을 사용해 정책을 선별했지만, 이는 고성능이지만 희귀한 행동을 놓치기 쉽다. - OPC는 정보‑이론적 고유성 점수 ρ_OPC(θ_i)=H(d_{θ_i})+D_KL(d_{θ_i}‖d_Ψ) 를 도입한다. 여기서 d_{θ_i}는 개별 정책의 상태 점유도, d_Ψ는 현재 후보 집합의 혼합 점유도이다. - 이 점수는 (a) 개별 정책이 방문하는 상태의 엔트로피가 높을수록, (b) 전체 집합 평균과의 KL 발산이 클수록 높은 값을 부여한다. 즉, 탐험성이 강하고 집합 내에서 독특한 정책을 우선적으로 선택한다. - 실제 구현에서는 각 정책의 점유도 분포를 수집된 트래젝터리 데이터에 GMM을 피팅해 근사하고, 엔트로피와 KL을 계산한다. 2. **잠재 행동 압축 목표** - APC는 복원 손실을 즉시 행동 KL로 정의했지만, OPC는 전체 정책 집합의 혼합 점유도 분포 간 KL 발산을 최소화한다. - 구체적으로, 생성 모델 g∘f가 복원한 정책 집합 {π̂_i}에 대해 혼합 점유도 d_{̂Ψ}=1/M∑_i d_{π̂_i} 를 계산하고, 원본 혼합 점유도 d_Ψ와의 KL 발산을 차별화 가능한 중요도 샘플링 추정식(식 1)으로 최소화한다. - 이 접근법은 개별 정책을 완벽히 복원하려는 과도한 제약을 완화하고, 전체 행동 집합이 장기적으로 방문하는 상태 공간을 보존하도록 유도한다. **실험** 저자들은 Hopper, Walker2d, HalfCheetah 등 대표적인 연속 제어 벤치마크에서 APC와 OPC를 비교한다. 평가 지표는 다음과 같다. - **데이터셋 다양성**: 고유 정책 수, 혼합 점유도 엔트로피, 정책 간 KL 평균. OPC는 APC 대비 2‑3배 높은 고유 정책 비율과 15% 이상 높은 엔트로피를 기록한다. - **잠재 공간 품질**: t‑SNE 시각화와 혼합 점유도 KL을 이용해 잠재 공간 내 행동 클러스터링을 평가한다. OPC는 클러스터 간 거리가 크게 유지되어, 잠재 변수 변화가 실제 행동 변화와 강하게 상관됨을 확인한다. - **파인‑튜닝 효율성**: 사전 학습된 잠재 디코더를 고정하고, downstream reward에 대해 PGPE 기반 탐색을 수행한다. 동일 에피소드 수에서 OPC는 APC보다 평균 15‑20% 높은 최종 보상을 달성한다. 특히 복잡한 Hopper 환경에서 APC가 수렴에 실패하는 반면, OPC는 안정적으로 높은 성능을 유지한다. **결론 및 향후 연구** OPC는 정책 압축이 단순히 차원을 줄이는 것이 아니라, 행동의 장기적 구조를 보존하도록 설계되어야 함을 입증한다. 상태 점유도 기반의 목표는 비지도 강화학습(URL)에서 사전 학습된 행동 표현을 downstream task에 효과적으로 전이시키는 핵심 메커니즘으로 작용한다. 향후 연구 방향으로는 (1) 점유도 추정의 샘플 효율성을 높이기 위한 비파라메트릭 커널 방법, (2) 다중 에이전트 혹은 비정상적 환경에서의 점유도 기반 압축 확장, (3) 정책 디코더와 잠재 탐색기의 공동 최적화를 통한 메타‑학습 프레임워크와의 통합 등을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기