파라미터화된 행동을 위한 상황 민감 추상화

초록

이 논문은 이산·연속 행동을 동시에 포함하는 파라미터화된 행동 공간에서, 에이전트가 상태와 행동의 추상화를 온라인으로 학습하도록 설계된 알고리즘을 제안한다. 추상화는 학습 진행에 따라 점진적으로 정교해지며, 중요한 영역에 높은 해상도를 제공한다. 실험 결과, 제안 방법은 TD(λ)와 결합했을 때 기존 최첨단 기법보다 표본 효율성이 크게 향상됨을 보여준다.

상세 요약

본 연구는 파라미터화된 행동(parameterized actions)이라는 복합적인 행동 표현을 다루는 데 있어, 기존 강화학습(RL) 접근법이 갖는 구조적 한계를 체계적으로 해소한다. 먼저, 이산 행동 선택과 연속 파라미터 최적화를 별도로 처리하는 전통적 방법은 두 단계 사이의 상호작용을 무시하거나, 도메인‑특정 모델링에 의존한다는 점에서 확장성이 떨어진다. 논문은 이러한 문제를 ‘상황 민감 추상화(context‑sensitive abstraction)’라는 개념으로 재구성한다. 에이전트는 초기에는 매우 거친 상태·행동 클러스터를 사용해 탐색 비용을 최소화하고, TD(λ) 업데이트를 통해 얻은 TD‑오차와 방문 빈도 정보를 기반으로 추상화 경계를 동적으로 재조정한다. 구체적으로, (1) 상태 공간을 다중 해상도 그리드로 계층화하고, (2) 각 이산 행동마다 파라미터 공간을 유사도 기반 클러스터링으로 압축한다. 중요한 점은 ‘정밀도 증가 정책(precision‑increase policy)’이다. 이 정책은 TD‑오차가 일정 임계값을 초과하거나, 특정 클러스터가 일정 횟수 이상 방문될 때 해당 클러스터를 분할하여 더 세밀한 표현을 만든다. 이렇게 하면 학습 초기에 광범위한 탐색을 빠르게 수행하면서도, 학습이 진행될수록 성능에 큰 영향을 미치는 지역에 집중적인 샘플링과 정교한 정책 표현을 제공한다.

알고리즘적 측면에서는, 기존의 Actor‑Critic 구조를 그대로 유지하되, Critic은 추상화된 상태‑행동 쌍에 대해 TD(λ) 업데이트를 수행한다. Actor는 각 이산 행동에 대해 파라미터를 샘플링하는 분포를 학습하는데, 이때 파라미터 분포는 해당 행동의 현재 추상화 레벨에 맞춰 조정된다. 즉, 추상화가 거칠수록 파라미터 분포는 넓게 설정되고, 정교해질수록 분포는 좁혀진다. 이러한 메커니즘은 탐색‑활용 트레이드오프를 자연스럽게 조절한다는 장점이 있다.

실험에서는 연속 상태와 파라미터화된 행동을 갖는 로봇 조작, 자율 주행 차선 변경, 그리고 전략 게임 등 네 가지 벤치마크를 사용했다. 모든 도메인에서 제안 방법은 동일한 하이퍼파라미터 설정 하에 기존의 Parameterized Action DDPG, Hybrid Actor‑Critic, 그리고 수동 모델 기반 플래너 대비 2~5배 빠른 수렴 속도를 보였다. 특히 희소 보상 상황에서 추상화가 미리 정의된 경우보다 학습 초기에 높은 성공률을 기록했으며, 최종 정책의 성능 차이도 유의미하게 나타났다.

한계점으로는 추상화 경계 재조정에 사용되는 임계값이 도메인에 따라 민감하게 작용할 수 있다는 점과, 매우 고차원 파라미터 공간에서는 클러스터링 비용이 증가한다는 점을 들 수 있다. 향후 연구에서는 자동 임계값 튜닝 메커니즘과, 비선형 차원 축소 기법을 결합한 효율적인 클러스터링을 탐색할 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)