계층 강화학습에서 작업 완료 의무를 줄이는 방법
초록
본 논문은 계층 강화학습(HRL)에서 전통적인 TD 방법이 요구하는 하위 작업의 완전 수행(Commitment) 없이도 효율적인 오프‑폴리시 학습이 가능함을 보인다. 저자는 Q‑learning, Q(λ)와 같은 기존 방법이 탐색 중인 하위 작업에서 발생하는 비의도적 온‑폴리시 업데이트 문제를 지적하고, 원-스텝 인트라‑옵션 학습과 Temporal Second Difference Traces(TSDT)를 수정하여 이러한 문제를 해결한다. 클리프‑워킹과 택시 도메인 실험을 통해 작업 완수 의무를 점진적으로 감소시키면 학습 속도와 최종 정책 모두 향상된다는 결과를 제시한다.
상세 분석
이 논문은 HRL 시스템에서 오프‑폴리시 TD 학습이 하위 작업에서 비탐욕적 행동을 취할 때 의도치 않게 온‑폴리시 업데이트가 발생한다는 근본적인 결함을 발견한다. 기존의 Q‑learning이나 Watkins의 Q(λ)는 비탐욕적 행동이 발생하면 상위 작업의 백업을 건너뛰거나 트레이스를 초기화해야 하는데, 이는 “작업에 대한 커밋(commitment)”을 강제하게 만든다. 즉, 하위 작업을 완전히 수행하고 나서야 상위 작업의 Q값을 업데이트할 수 있어 탐색 효율이 크게 저하된다.
저자는 두 가지 대안을 제시한다. 첫 번째는 원‑스텝 인트라‑옵션 학습으로, 하위 작업이 비탐욕적 행동을 할 경우 상위 작업의 백업을 단순히 건너뛰는 것이 아니라, 현재 상태‑행동 쌍에 대해 동일한 행동의 Q값을 사용해 로컬 업데이트를 수행한다. 이는 GLIE(탐색은 비소멸, 수렴 시 탐욕) 조건만 만족하면 충분히 수렴한다. 두 번째는 Temporal Second Difference Traces(TSDT)를 “게이트” 형태로 수정해, 비탐욕적 행동이 발생한 순간 해당 시점 이후의 트레이스 입력을 차단하지만 기존에 저장된 차분값은 유지한다. 이렇게 하면 deterministic 환경에서 빠른 리턴 전파가 가능하고, 모델 기반 Dyna‑Q와 유사한 효과를 얻는다.
논문은 또한 “모든 목표 업데이트(all‑goals updating)”와 “전체 상태 업데이트(all‑states updating)” 개념을 재조명한다. 전자는 여러 목표에 대한 정보를 동시에 학습하게 해 오프‑폴리시 학습을 가능하게 하지만, 구현 복잡도가 높다. 반면 후자는 목표가 현재 시도 중인 경우에만 업데이트하므로 구현이 간단하지만 학습 효율이 떨어진다. 저자는 TSDT와 원‑스텝 인트라‑옵션 학습이 이러한 업데이트 방식을 보완해, 하위 작업이 완전히 수렴하지 않아도 상위 작업이 유의미한 정보를 얻을 수 있게 한다.
실험에서는 클리프‑워킹 환경에서 전통적인 HRL(완전 커밋)과 비교해, 비커밋 OPHRL이 동일한 학습 에피소드 수 내에 최적 정책에 도달함을 보였다. 특히 탐색 단계가 진행될수록 하위 작업에 대한 커밋 비율을 점진적으로 낮추는 “커밋 감소 스케줄”을 적용했을 때, 온라인 성능이 크게 향상되고 최종 정책의 품질도 개선되었다. 택시 도메인에서도 비슷한 현상이 관찰되었으며, 이는 하위 작업을 조기에 포기하고 새로운 탐색 경로를 선택함으로써 상태‑행동 공간을 보다 효율적으로 커버할 수 있음을 시사한다.
결론적으로, 이 논문은 HRL에서 “작업에 대한 완전한 커밋”이 반드시 효율성의 전제조건이 아니라는 기존 믿음을 뒤집는다. 오프‑폴리시 TD 방법을 적절히 수정하고, 탐색 진행에 따라 커밋 정도를 동적으로 조절함으로써, 학습 속도와 정책 품질을 동시에 개선할 수 있음을 실험적으로 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기