다중과제 강화학습을 위한 딥 생성 모델 기반 탐색 전략

본 논문은 다중과제 강화학습(MTRL) 환경에서 에이전트가 현재 MDP를 빠르게 식별하도록 돕는 새로운 탐색 보너스를 제안한다. 딥 변분 오토인코더(VAE)와 저차원 에너지 모델(RBM)을 결합해 MDP 분포를 학습하고, 상태‑입력에 대한 Jacobian을 이용한 탐색 보너스를 pseudo‑reward로 제공한다. 실험 결과는 제안 방법이 기존 단일‑과제 탐색 기법보다 목표 도달 속도와 누적 보상에서 우수함을 보여준다.

저자: Sai Praveen Bangaru, JS Suhas, Balaraman Ravindran

다중과제 강화학습을 위한 딥 생성 모델 기반 탐색 전략
본 논문은 다중과제 강화학습(Multi‑task Reinforcement Learning, MTRL) 상황에서 에이전트가 현재 수행 중인 작업에 해당하는 마코프 결정 과정(MDP)을 빠르게 식별하도록 돕는 새로운 탐색 메커니즘을 제안한다. 기존 탐색 기법(E³, R_max, Thompson sampling 등)은 단일 고정 MDP를 전제로 설계돼, 에이전트가 매 에피소드마다 다른 MDP를 마주하는 MTRL 환경에 적합하지 않다. 저자들은 이러한 한계를 극복하기 위해 두 단계의 딥 생성 모델과 Jacobian 기반 탐색 보너스를 결합한 프레임워크를 설계한다. 1. **문제 정의 및 배경** MTRL은 에이전트가 여러 MDP를 동시에 학습하거나, 새로운 MDP에 빠르게 적응해야 하는 상황을 의미한다. 전통적인 Q‑learning, SARSA 등은 비정상적인 보상 구조와 변동하는 목표 위치 때문에 비효율적이며, MDP를 명시적으로 추정하지 못한다. 최근 연구는 메모리 기반 추정이나 전체 MDP 분포에 대한 모델링을 시도했지만, 대부분은 관측된 마커를 수동적으로 이용하거나 탐색 보너스를 제공하지 않는다. 2. **제안 모델 구조** - **Deep Variational Auto‑Encoder (VAE)**: 입력은 2‑D 그리드 월드 이미지 X와 관측 마스크 M이다. 마스크가 0인 셀은 손실 함수에서 제외해 부분 관측 상황에서도 잠재 변수 z를 안정적으로 학습한다. 컨볼루션 레이어를 사용해 공간적 국소성을 활용하고, 인코더 f_e와 디코더 f_d를 통해 X↔z 변환을 수행한다. - **Gaussian‑Binary Restricted Boltzmann Machine (RBM)**: VAE가 만든 잠재 벡터 z를 저차원 에너지 모델에 입력해, 서로 다른 MDP를 클러스터링한다. RBM은 1개의 히든 유닛을 사용해 두 개의 가우시안 클러스터(예: BW‑E의 두 변형)를 학습한다. 학습은 대조 발산(Contrastive Divergence)으로 수행한다. - **샘플링 절차 (Algorithm 1)**: 현재 관측 X에 대해 VAE 인코딩 후, RBM에서 K개의 히든 상태 h(i)를 샘플링하고, MAP 추정을 통해 각 h(i)에서 잠재 변수 z(i)를 복원한다. 복원된 z(i)를 디코더에 넣어 MDP 샘플 y(i)를 얻는다. 3. **가치 함수와 행동 선택** 각 샘플 MDP y(i)마다 가치 반복(value iteration, γ=0.95, 40 iteration)을 수행해 V_{m_i}(s)를 계산한다. K개의 가치 함수를 평균해 \(\bar V(s)\)를 구하고, ε‑greedy(ε=0) 정책으로 행동을 선택한다. 계산 비용을 줄이기 위해 선택된 행동은 τ=3 스텝 동안 유지한다. 4. **Jacobian 기반 탐색 보너스** 에이전트가 현재 셀 s에서 관측한 픽셀 값 x_s에 대해 VAE 잠재 변수 z의 변화량을 \(\partial z / \partial x_s\)로 계산한다. 보너스는 \(B_\alpha(s)=\alpha \cdot \tanh\big(\|\partial z / \partial x_s\|\big)\) 형태이며, α는 스케일 파라미터이다. 이 보너스는 두 가지 방식으로 적용될 수 있다: (1) 실제 보상에 더해 pseudo‑reward로 사용하거나, (2) 실제 보상을 대체한다. 실험에서는 두 번째 방식이 더 좋은 성능을 보였다. 보너스는 매 타임스텝마다 재계산되며, 에피소드 간에 누적되지 않는다. 5. **실험 설정** - **환경**: 28×28 그리드 월드 두 종류, BackWorld‑Easy (BW‑E)와 BackWorld‑Hard (BW‑H). 마커 색상이 목표 위치를 결정하고, 마커 위치가 경로에 포함되는지 여부가 난이도를 구분한다. - **비교 알고리즘**: (a) STRL – 전통적인 가치 반복만 사용, (b) MTRL‑0 – VAE+RBM만 사용, (c) MTRL‑α – VAE+RBM+Jacobian 보너스. - **평가 지표**: 평균 누적 보상과 평균 에피소드 길이(목표 도달까지 스텝 수). 에피소드 최대 길이는 200 스텝이며, 이를 초과하면 강제 종료한다. 6. **결과** - **표 1 (평균 보상)**: STRL은 0.21~0.23 수준에 머무는 반면, MTRL‑0은 0.92~0.99, MTRL‑α는 0.99에 달한다. 특히 BW‑H에서 MTRL‑α가 가장 높은 보상을 얻는다. - **표 2 (평균 에피소드 길이)**: STRL은 184~184 스텝으로 거의 최대 길이에 도달하지만, MTRL‑0은 46~54 스텝, MTRL‑α는 45~46 스텝으로 크게 감소한다. BW‑H에서 MTRL‑α가 가장 짧은 에피소드를 기록한다. - **시각화**: RBM 클러스터링 결과는 두 개의 가우시안이 명확히 구분되는 것을 보여준다. Jacobian 보너스 시각화(그림 2)에서는 마커 주변 셀이 노란‑녹색으로 강조되어, 에이전트가 탐색해야 할 핵심 위치임을 직관적으로 확인할 수 있다. 7. **논의 및 한계** 제안 방법은 (1) 부분 관측 환경에서도 VAE가 강건한 잠재 표현을 학습하고, (2) RBM을 통해 MDP 분포를 베이지안 방식으로 추정하며, (3) Jacobian 보너스로 정보량이 높은 셀을 자동으로 탐색하도록 유도한다는 점에서 의미가 크다. 그러나 현재 실험은 2‑D 그리드 월드와 제한된 MDP 수(두 개)로만 검증했으며, 고차원 연속 상태공간이나 복잡한 시뮬레이션 로봇 환경에 대한 확장성은 아직 입증되지 않았다. 또한 Jacobian 계산 비용이 높은 신경망 구조에서는 실시간 적용이 어려울 수 있다. 8. **결론** 본 논문은 다중과제 강화학습에서 현재 MDP를 식별하는 문제를 생성 모델과 Jacobian 기반 탐색 보너스로 해결한다. 실험 결과는 제안 방법이 기존 단일‑과제 탐색 기법보다 목표 도달 속도와 누적 보상에서 현저히 우수함을 보여준다. 향후 연구에서는 보다 복잡한 환경, 연속 행동 공간, 그리고 메모리 효율적인 Jacobian 근사 기법을 탐색함으로써 실제 로봇 및 게임 AI에 적용 가능성을 확대할 수 있을 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기