계층적 정책 서브스페이스를 활용한 지속적 오프라인 강화학습

계층적 정책 서브스페이스를 활용한 지속적 오프라인 강화학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HiSPO는 오프라인 데이터만을 이용해 연속적인 네비게이션 과제에 적응하도록 설계된 계층적 정책 프레임워크이다. 고수준 경로 계획 정책과 저수준 행동 정책을 각각 별도의 파라미터 서브스페이스에 배치하고, 새로운 과제가 등장하면 서브스페이스를 확장하거나 기존 서브스페이스를 탐색해 기억 손실 없이 효율적으로 적응한다. 실험 결과 MuJoCo 미로와 비디오 게임 기반 시뮬레이션에서 메모리 사용량과 적응성 면에서 기존 지속적 강화학습 방법들을 능가한다.

상세 분석

HiSPO는 기존 지속적 강화학습(CRL)에서 제기되는 ‘망각 방지’와 ‘스케일러빌리티’ 문제를 해결하기 위해 두 단계의 핵심 아이디어를 도입한다. 첫째, 정책 파라미터를 ‘앵커(Anchor)’라 불리는 대표점들의 선형 결합으로 정의된 서브스페이스에 제한한다. 이는 파라미터 차원을 실질적으로 낮추어 새로운 과제에 대한 빠른 적응을 가능하게 한다. 둘째, 고수준 경로 계획(policy_h)과 저수준 행동 제어(policy_l)를 각각 독립적인 서브스페이스에 배치함으로써, 위상 변화와 운동학적 변화라는 서로 다른 환경 변동에 특화된 적응을 동시에 수행한다.

서브스페이스 확장은 새로운 앵커를 추가하고, 앵커 가중치 α를 학습한다. 여기서는 LoRA(Low‑Rank Adaptation)를 활용해 새로운 앵커를 저랭크 행렬 A·B 형태로 초기화함으로써 메모리 오버헤드를 최소화한다. 반면, 서브스페이스 탐색 단계에서는 Dirichlet 분포에서 샘플링한 α 후보들을 평가해 현재 데이터셋에 가장 적합한 가중치를 선택한다. 이때 손실 L_curr와 기존 서브스페이스 손실 L_prev를 비교해 ε 기준을 만족하면 새 앵커를 폐기하고, 그렇지 않으면 유지한다. 이러한 ‘확장‑탐색‑판정’ 루프는 매 과제마다 반복되며, 과제 수가 증가해도 파라미터 수는 앵커 수에 비례해 선형적으로 성장한다.

HiSPO는 오프라인 목표조건 강화학습(GCRL) 설정을 전제로 한다. 데이터는 사전 수집된 트랙션(시계열)과 목표(g) 쌍으로 구성되며, HER(Hindsight Experience Replay)를 통해 목표 재라벨링을 수행한다. 고수준 정책은 미래 상태(ϕ(s_{t+k}))를 서브골로 예측하고, 저수준 정책은 해당 서브골을 달성하기 위한 행동을 출력한다. 이 계층적 구조는 복잡한 네비게이션 과제에서 장기 계획과 단기 제어를 명확히 분리함으로써 학습 안정성을 높인다.

실험에서는 MuJoCo 기반 미로와 복합적인 비디오 게임 시뮬레이션 두 종류의 환경을 사용했다. 평가 지표는 평균 성공률(PER), 전후 성능 차이(BWT), 전이 학습 효율(FWT), 그리고 메모리 사용량(MEM)이다. HiSPO는 특히 메모리 사용량 측면에서 기존 Replay 기반 방법이나 Progressive Neural Networks보다 훨씬 효율적이며, BWT와 FWT에서도 경쟁력을 보였다. 또한, 서브스페이스 확장 여부를 자동으로 판단하는 메커니즘 덕분에 불필요한 파라미터 증가를 억제하고, 새로운 위상·운동학 변화를 빠르게 포착한다.

한계점으로는 서브스페이스 탐색 시 Dirichlet 샘플링에 의존하기 때문에 최적 가중치를 찾는 데 일정한 확률적 변동성이 존재한다는 점, 그리고 고수준·저수준 정책을 각각 별도 네트워크로 구현함에 따라 초기 학습 비용이 다소 높아질 수 있다는 점을 들 수 있다. 향후 연구에서는 베이지안 최적화 기반 가중치 탐색이나, 공유된 베이스 네트워크 위에 다중 서브스페이스를 겹치는 방식으로 파라미터 효율성을 더욱 개선할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기