계층적 엔터티 중심 강화학습과 팩터화 서브골 디퓨전
초록
본 논문은 이미지 기반의 장기 목표 달성을 위해, 값 기반 목표조건 강화학습 에이전트와 엔터티‑팩터화 서브골을 생성하는 조건부 디퓨전 모델을 결합한 두 단계 계층 구조를 제안한다. 엔터티‑중심 표현과 가치 함수 기반 서브골 선택을 통해 복합적인 다중 엔터티 환경에서 성공률을 150% 이상 향상시킨다.
상세 분석
이 연구는 오프라인 Goal‑Conditioned Reinforcement Learning(GCRL)에서 발생하는 두 가지 핵심 문제, 즉 장기 희소 보상 하에서의 가치 전파 오류와 다중 엔터티 환경에서의 조합적 상태 복잡성을 동시에 해결하고자 한다. 첫 번째 문제는 TD 학습이 시간 단계가 늘어날수록 누적되는 근사 오차, 즉 ‘value signal‑to‑noise ratio’가 감소하면서 정책이 유효한 거리(RVπ) 내에서만 의미 있는 신호를 얻는다는 점이다. 저자들은 이를 ‘정책 역량 반경(R)’이라는 개념으로 정량화하고, 서브골을 현재 정책이 도달 가능한 반경 안에 위치하도록 강제한다. 두 번째 문제는 상태가 N개의 엔터티로 팩터화될 때 상태 공간이 지수적으로 증가한다는 점이다. 이를 완화하기 위해 이미지에서 무감독 객체‑중심 표현(Deep Latent Particles, DLP)을 사용해 각 엔터티를 별개의 latent factor로 분리하고, 이러한 팩터를 그대로 디퓨전 모델의 조건으로 활용한다.
핵심 설계는 두 단계 계층이다. 하위 레벨은 기존 가치 기반 GCRL 에이전트(예: HIQL)이며, 상위 레벨은 ‘Subgoal Diffuser’라 불리는 조건부 디퓨전 모델이다. 디퓨전 모델은 (s, g) 쌍을 입력으로 받아, 현재 상태 s에서 K 타임스텝 이내에 도달 가능한 상태들의 분포 p(ĝ|s,g)를 학습한다. 이때 데이터는 오프라인 로그에서 무작위로 추출되므로 목표 지향적 행동을 포함하지 않을 수 있다. 따라서 학습된 디퓨전 모델은 최적성 보장이 없으며, 다중 모달 분포를 포착하기 위해 노이즈‑조건부 denoising 네트워크를 사용한다.
테스트 단계에서는 N개의 후보 서브골을 디퓨전 모델에서 샘플링하고, 가치 함수 V(s,ĝ) > Ř(정책 역량 반경)인 후보만 필터링한다. 필터링된 후보 중 목표와의 가치 차이가 가장 큰 ĝ를 선택하고, 만약 현재 상태 s가 목표 g에 더 가깝다면 직접 g로 전이한다. 선택된 서브골은 고정된 Tsg 타임스텝 동안 하위 정책 π에 의해 실행되며, 이후 동일 절차가 반복된다. 이 과정은 상태 공간에서의 제한된 샘플 기반 계획, 즉 receding‑horizon MPC와 유사하지만, 행동 공간이 아니라 상태‑목표 공간을 직접 최적화한다는 점에서 차별화된다.
팩터화된 서브골의 장점은 엔터티별 변동이 최소화된 목표가 하위 정책에게 더 쉬운 제어 문제를 제공한다는 것이다. 예를 들어, 하나의 블록만 이동시키는 서브골은 여러 블록을 동시에 이동시켜야 하는 서브골보다 가치 함수가 동일하더라도 실현 가능성이 높다. 실험에서는 이러한 엔터티‑팩터화가 실제 이미지 기반 로봇 조작 및 비디오 게임 환경에서 성공률을 크게 끌어올렸다.
또한, 제안된 프레임워크는 모듈러 설계 덕분에 기존 가치 기반 GCRL 알고리즘과 바로 결합할 수 있다. 하위 정책과 상위 디퓨전 모델은 독립적으로 학습되며, 서로의 파라미터를 변경할 필요가 없으므로 다양한 오프라인 데이터셋과 목표 분포에 쉽게 적용 가능하다. 이는 기존 HIQL 같은 방법이 서브골을 직접 학습하거나 정책 구조를 변경해야 하는 제약을 극복한다.
결과적으로, 이 논문은 (1) 엔터티‑중심 무감독 표현을 활용한 상태 팩터화, (2) 조건부 디퓨전 모델을 통한 다중 모달 서브골 생성, (3) 가치 함수 기반의 동적 서브골 선택 메커니즘이라는 세 가지 혁신을 결합해, 복합 다중 엔터티 환경에서 장기 목표 달성 능력을 크게 향상시켰다.
댓글 및 학술 토론
Loading comments...
의견 남기기