계층적 정책 표현 학습을 통한 효율적 무감독 환경 설계
초록
본 논문은 교사와 학생 에이전트 간 상호작용이 제한된 상황에서, 학생 정책의 표현을 활용해 환경을 설계하는 새로운 계층적 MDP 프레임워크를 제안한다. 합성 데이터를 생성하는 확산 모델을 도입해 실제 학생‑교사 상호작용 횟수를 크게 줄이며, 실험을 통해 기존 무감독 환경 설계 방법보다 적은 상호작용으로 더 높은 제로샷 전이 성능을 달성함을 보인다.
상세 분석
이 연구는 무감독 환경 설계(UED) 분야의 핵심 한계인 “무한히 많은 교사‑학생 상호작용” 가정에 도전한다. 기존 방법들은 주로 무작위 탐색이나 규칙 기반 커리큘럼을 사용해 환경 파라미터 Θ 를 생성했으며, 이는 설계 공간이 넓을수록 비효율적이다. 저자는 이를 해결하기 위해 두 단계의 계층적 마코프 결정 과정(MDP)을 도입한다. 상위 레벨 교사 MDP는 상태 Sᵤ 를 학생 정책을 여러 평가 환경에서 측정한 성능 벡터 p(π) 로 정의하고, 행동 Aᵤ 를 환경 파라미터 θ̂ 로 매핑한다. 교사는 이 상태‑행동 쌍을 통해 학생이 현재 어느 수준에 있는지를 파악하고, 그 수준에 맞는 난이도의 환경을 선택한다. 하위 레벨 학생 MDP는 전통적인 RL 환경으로, 교사가 제시한 θ̂ 에 따라 학생 정책 π 가 C 단계 동안 학습한다.
핵심 기술은 교사 경험을 보강하기 위한 확산 기반 세계 모델이다. 실제 학생‑교사 상호작용을 통해 얻은 (sᵤ, θ̂, r, sᵤ′) 전이 데이터를 B_real 에 저장하고, 이를 이용해 조건부 확산 모델 D 를 학습한다. 학습된 D 는 현재 상태 sᵤ 와 교사 행동 θ̂ 를 입력으로 받아 다음 상태 sᵤ′ 를 샘플링함으로써 합성 전이 B_syn 을 생성한다. 이렇게 생성된 합성 데이터는 실제 데이터와 비율 ψ 로 혼합돼 교사 정책 Λ 의 오프‑폴리시 학습에 활용된다. 결과적으로 한 에피소드 내에서 학생이 수행해야 하는 전체 학습 시간 C 를 크게 줄이면서도, 교사는 충분히 다양하고 현실적인 경험을 확보한다.
또한 논문은 학생 정책을 평가 환경 집합을 통해 유한 차원 벡터로 표현할 수 있다는 정리를 제시한다(정리 4.1). 이는 환경 파라미터 공간 Θ 를 충분히 작은 구간으로 분할하고, 각 구간을 대표하는 환경을 미리 선정함으로써 가능하다. 이렇게 고정된 평가 환경 집합은 교사가 학생의 능력을 일관되게 측정하고, 정책 표현의 차원 저주를 피하면서도 충분한 정보를 제공한다.
실험에서는 로봇 조작, 그리드 월드, 그리고 복합적인 물리 시뮬레이션 등 여러 도메인에 SHED 를 적용했다. 비교 대상으로는 최신 UED 방법인 ACCEL, PAIR‑ED, 그리고 도메인 랜덤화 기반 베이스라인이 사용되었다. 결과는 동일한 상호작용 예산(예: 1 에피소드당 10 k 스텝)에서 SHED 가 평균 12 %~18 % 높은 제로샷 성공률을 기록했으며, 특히 제한된 예산 상황에서 교사‑학생 상호작용 횟수를 30 % 이상 절감했다. 이는 합성 데이터를 통한 교사 학습 효율이 크게 향상되었음을 의미한다.
전체적으로 이 논문은 (1) 학생 정책을 직접적인 상태 정보로 활용한 계층적 MDP 설계, (2) 확산 모델을 통한 합성 경험 생성, (3) 평가 환경 기반 정책 표현이라는 세 가지 혁신을 결합해, 실용적인 자원 제한 환경에서도 강건한 커리큘럼 생성을 가능하게 한다는 점에서 큰 의의를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기