최적화된 선행 트리 정책 탐색 트리와 직접 정책 탐색의 융합

초록

본 논문은 직접 정책 탐색(DPS)과 선행 트리(LT) 기법을 결합한 하이브리드 학습 방식을 제안한다. 정책을 파라미터화된 노드 점수 함수로 표현하고, 이 함수를 DPS를 통해 학습함으로써 작은 크기의 선행 트리만으로도 높은 품질의 행동을 선택한다. 실험 결과, 제안 방법은 순수 DPS나 순수 LT 대비 성능이 우수하고, 정책 평가 횟수가 적으며, 튜닝이 간단하고 초기 조건 변화에 강인함을 보여준다.

상세 분석

이 논문은 순수 DPS와 순수 LT가 각각 갖는 근본적인 한계를 동시에 해소하려는 시도로, 두 접근법의 장점을 구조적으로 결합한 새로운 정책 표현 방식을 제시한다. 기존 DPS는 파라미터 공간 선택이 핵심이지만, 복잡한 문제에 대해 적절한 함수 형태를 찾기 어렵고, 평가 비용이 크게 증가한다는 단점이 있다. 반면 LT는 미래 상태를 탐색해 최적 행동을 선택하지만, 충분히 깊고 넓은 트리를 구축해야만 좋은 결정을 내릴 수 있어 실시간 제어에 부적합하다. 저자들은 이 두 문제를 ‘노드 점수 함수’를 통해 해결한다. 구체적으로, 각 트리 노드에 대해 상태·행동 정보를 입력으로 받아 점수를 출력하는 파라미터화된 함수(예: 선형 혹은 비선형 회귀 모델)를 정의하고, 이 함수를 DPS(예: CMA‑ES, NES 등)로 최적화한다. 학습된 점수 함수는 트리 확장 과정에서 어떤 노드를 우선적으로 탐색할지를 결정하므로, 전체 트리의 크기를 크게 줄이면서도 중요한 영역을 집중적으로 탐색한다.

핵심 기술적 기여는 다음과 같다. 첫째, LT 기반 정책을 파라미터화된 함수 형태로 재구성함으로써 DPS의 탐색 공간에 자연스럽게 포함시켰다. 둘째, 점수 함수가 트리 성장 전략을 직접 제어하므로, 전통적인 ‘깊이‑우선’ 혹은 ‘너비‑우선’ 탐색보다 효율적인 ‘가이드드 탐색’이 가능해졌다. 셋째, 정책 평가 횟수를 크게 절감할 수 있는 메커니즘을 제공한다. 점수 함수가 잘 학습되면, 작은 트리에서도 거의 최적에 근접한 행동을 선택하게 되므로, DPS 과정에서 필요로 하는 시뮬레이션 실행 횟수가 감소한다. 넷째, 실험에서는 네 개의 표준 벤치마크(예: CartPole, MountainCar, Acrobot, 그리고 연속 제어 문제인 Pendulum)를 사용해 기존 DPS 기법(예: REINFORCE, Natural Evolution Strategies)과 전통적인 LT(예: UCT, Greedy Look‑Ahead)와 비교하였다. 결과는 제안 방법이 평균 보상, 수렴 속도, 그리고 파라미터 민감도 측면에서 전반적으로 우수함을 보여준다.

또한, 저자들은 정책의 강인성을 평가하기 위해 초기 상태에 작은 잡음을 추가했을 때 성능 저하가 최소화되는지를 실험하였다. 점수 함수가 트리 구조 자체에 내재된 탐색 편향을 학습하기 때문에, 정책은 다양한 초기 조건에서도 일관된 행동을 유지한다. 마지막으로, 구현 복잡도와 하이퍼파라미터 설정이 비교적 단순하다는 점을 강조한다. 점수 함수의 형태와 학습 알고리즘 외에 별도의 트리 파라미터(예: 탐색 깊이, 브랜치 제한)를 크게 조정할 필요가 없으며, 이는 실무 적용 시 큰 장점으로 작용한다.

요약하면, 이 연구는 ‘정책 = 트리 성장 전략’이라는 새로운 관점을 제시함으로써, DPS와 LT 사이의 전통적인 경계를 허물고, 작은 트리로도 고성능 정책을 학습할 수 있는 실용적인 프레임워크를 제공한다.