긴 시간 오프라인 목표조건 강화학습을 위한 목표연쇄 계층 정책

긴 시간 오프라인 목표조건 강화학습을 위한 목표연쇄 계층 정책
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 오프라인 목표조건 강화학습에서 긴 시간 지평을 다루기 위해, 계층적 의사결정을 자동회귀 시퀀스 생성 문제로 재구성한 “Chain‑of‑Goals Hierarchical Policy (CoGHP)”를 제안한다. 상태와 최종 목표를 입력으로 받아, MLP‑Mixer 기반 통합 네트워크가 잠재 서브골을 순차적으로 생성하고 마지막에 원시 행동을 출력한다. 다중 서브골을 역순으로 생성함으로써 최종 목표에 대한 지속적인 인식을 유지하고, 단일 네트워크 내에서 엔드‑투‑엔드 학습이 가능하도록 설계하였다. 실험 결과, 복잡한 네비게이션·조작 벤치마크에서 기존 오프라인 계층 RL 방법들을 일관되게 능가하였다.

상세 분석

CoGHP는 기존 오프라인 계층 강화학습이 갖는 세 가지 구조적 한계를 해결한다. 첫째, 기존 방법은 고수준 정책이 하나의 중간 서브골만을 생성해 복잡한 작업에 부적합한데, CoGHP는 잠재 서브골을 H개의 시퀀스로 자동회귀적으로 생성한다. 둘째, 고수준 정책이 오류를 내면 저수준 정책이 최종 목표를 잊고 잘못된 서브골을 따르는 문제를, CoGHP는 모든 단계에서 최종 목표 임베딩(e_g)을 입력에 고정시켜 지속적으로 목표 의식을 유지한다. 셋째, 별도 네트워크 간의 목표 불일치와 그래디언트 차단을 피하기 위해 MLP‑Mixer 백본을 사용해 상태·목표·서브골·행동 토큰을 하나의 토큰 시퀀스로 처리한다. 토큰‑믹싱 MLP는 토큰 간 정보를 교환하고, 채널‑믹싱 MLP는 각 토큰의 특징을 정제한다. 또한 인과적(causal) 믹서를 도입해 현재 토큰이 이전에 생성된 토큰들만을 참조하도록 함으로써 자동회귀적 의존성을 명시적으로 모델링한다. 서브골은 가장 먼(z_H)부터 가장 가까운(z_1) 순서로 역방향 생성되며, 이는 근접 서브골이 더 풍부한 컨텍스트를 활용하도록 설계된 경험적 선택이다. 학습 단계에서는 목표조건 IQL을 확장한 가치 함수 V_ψ(s,g)를 공유하고, 서브골과 행동 모두에 동일한 advantage‑weighted regression(AWR) 손실을 적용한다. 이렇게 하면 서브골과 행동 모두가 동일한 가치 신호에 의해 동시에 교정되며, 전체 계층 구조에 걸친 엔드‑투‑엔드 최적화가 가능해진다. 실험에서는 Ant‑Maze, Mini‑Room 등 장기 탐색과 Manipulation‑Suite의 복합 조작 과제를 사용했으며, CoGHP는 성공률·샘플 효율·수렴 속도 모두에서 기존 오프라인 계층 RL(예: HIRO‑IQL, HAC‑IQL)보다 우수한 성능을 보였다. 특히 서브골 수 H를 늘려도 성능 저하가 거의 없으며, MLP‑Mixer 대신 Transformer를 사용했을 때 학습 불안정성과 과적합이 발생한다는 부정적 대조 실험도 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기