정규화 흐름을 활용한 데이터 효율적인 계층 목표조건 강화학습
초록
본 논문은 계층적 목표조건 강화학습(H‑GCRL)의 데이터 효율성을 높이기 위해, 고·저수준 정책을 정규화 흐름(Normalizing Flow) 기반의 다중모달 분포로 대체한 NF‑HIQL 프레임워크를 제안한다. RealNVP 흐름을 이용해 정확한 로그우도와 샘플링을 가능하게 하고, KL‑다이버전스 상한 및 PAC‑스타일 샘플 효율성 이론을 제공한다. 실험에서는 OGBench의 장기 locomotion·볼 드리블·다단계 조작 과제에서 기존 Gaussian 기반 및 확산 기반 방법들을 크게 앞서며, 특히 데이터가 절반으로 감소했을 때도 높은 성공률을 유지한다.
상세 분석
NF‑HIQL은 기존 HIQL이 사용하던 단일 가우시안 정책을 정규화 흐름으로 교체함으로써, 고수준 서브골 정책 π_h와 저수준 행동 정책 π_ℓ 모두에서 복잡하고 다중모달한 행동 분포를 표현한다. RealNVP 구조는 역함수와 Jacobian determinant를 효율적으로 계산할 수 있어, 로그우도와 엔트로피를 정확히 구할 수 있다. 이는 Advantage‑Weighted Maximum Likelihood(AW‑MLE) 목표식에 직접 대입될 수 있어, 샘플 기반 정책 업데이트 시 편향이 적고 분산이 낮은 그라디언트를 제공한다.
이론적 기여는 두 가지로 요약된다. 첫째, Lemma 2에서 제시된 KL‑다이버전스 상한은 학습된 흐름 정책이 행동 데이터의 분포와 크게 벗어나지 않도록 보장한다. 여기서 상수 B는 RealNVP의 층 수와 비선형성에 의해 결정되며, 행동 공간이 유계이고 행동 데이터가 유한 상한 M을 갖는 경우 KL ≤ B + log M을 만족한다. 이는 오프라인 RL에서 흔히 발생하는 OOD(Out‑Of‑Distribution) 행동 선택 위험을 완화한다.
둘째, Lemma 3의 PAC‑스타일 샘플 효율성 경계는 정책의 기대 보상이 최적 정책 π*와의 차이를 데이터 양 n_h, n_ℓ, 함수 클래스 복잡도 R_n(F) 및 KL 상수 B에 의해 제한함을 보인다. 구체적으로, (1 − γ)⁻¹에 비례하는 항과 R_n(F)/√n 형태의 일반화 오차가 결합되어, 충분히 큰 데이터와 충분히 표현력 있는 흐름 모델이면 정책이 최적에 근접함을 증명한다.
알고리즘 측면에서 NF‑HIQL은 기존 HIQL의 3단계(값 함수 업데이트, 고수준 정책 업데이트, 저수준 정책 업데이트)를 그대로 유지하되, 각 단계에서 흐름의 역함수를 이용해 u = f_H⁻¹(s_{t+k})·v = f_ℓ⁻¹(a_t) 를 구하고, 로그우도와 Jacobian determinant를 직접 계산한다. 이는 샘플링 기반 정책 그라디언트(예: REINFORCE)와 달리, 확률비(importance weight) 추정이 필요 없으며, GPU에서 효율적인 행렬 연산으로 구현 가능하다.
실험에서는 OGBench의 5가지 장기 과제(antmaze‑medium‑navigate, ant‑soccer‑medium‑navigate, ant‑soccer‑arena‑navigate, cube‑single‑play, scene‑play)를 사용하였다. 각 과제마다 1M 전이(transition) 데이터를 5개 시드로 학습하고, 성공률과 95 % 신뢰구간을 보고한다. 전체 데이터(100 %)와 절반 데이터(50 %) 두 조건에서 NF‑HIQL은 기존 GCIQL, CRL, HIQL, 그리고 확산 기반 BESO보다 일관되게 높은 성공률을 보였다. 특히 데이터가 절반으로 감소했을 때도 성공률 저하가 최소 수준에 머물렀으며, 이는 흐름 정책이 제한된 데이터에서도 다중모달 행동을 효과적으로 일반화함을 의미한다.
또한, NF‑GCIQL(고수준만 흐름, 저수준은 Gaussian)과 비교했을 때, 고·저수준 모두에 흐름을 적용한 NF‑HIQL이 더 큰 성능 향상을 보였는데, 이는 계층적 구조 전체에서 표현력 향상이 누적 효과를 낸다는 것을 시사한다. 계산 비용 측면에서는 RealNVP가 확산 모델보다 훨씬 가볍고, Gaussian 대비 약 1.5~2배 정도의 연산량 증가만으로도 다중모달성을 확보한다는 점이 실용성을 높인다.
요약하면, NF‑HIQL은 (1) 정확한 로그우도와 엔트로피 계산을 통한 안정적인 정책 학습, (2) KL‑제한을 통한 오프라인 데이터 안전성, (3) PAC‑스타일 일반화 이론을 통한 샘플 효율성 보장을 동시에 제공한다. 이는 데이터가 제한된 로봇 제어·시뮬레이션 환경에서 계층적 목표조건 학습을 실용화하는 중요한 진전이다.
댓글 및 학술 토론
Loading comments...
의견 남기기