혼란에 강인한 흐름 기반 오프라인 강화학습

혼란에 강인한 흐름 기반 오프라인 강화학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 픽셀 기반 오프라인 데이터에서 발생하는 관측 혼란(confounding)을 인과관계 관점에서 모델링하고, 흐름 매칭(flow‑matching) 정책에 최악‑사례 성능 하한을 적용한 새로운 목표 함수를 제안한다. 제안된 Causal Flow Q‑Learning(CFQL)은 행동 정책과 목표 정책 사이의 차이를 판별하는 딥 디스크리미네이터를 활용해, 혼란에 의해 왜곡된 행동 분포를 보정한다. 25개의 픽셀 기반 벤치마크에서 기존 최첨단 오프라인 RL 방법 대비 평균 성공률을 120 % 향상시켰다.

상세 분석

이 연구는 오프라인 강화학습에서 흔히 가정되는 “관측되지 않은 혼란(NUC) 가정”이 픽셀 기반 시연 데이터에서는 성립하지 않을 수 있다는 점을 명확히 짚는다. 시연자는 실제 상태(state)를 기반으로 행동을 선택하지만, 학습자는 동일한 시연 데이터를 픽셀 이미지 형태로만 접한다. 이미지가 상태 정보를 완전하게 전달하지 못하면 행동과 보상 사이에 숨겨진 외생 변수 U가 존재하게 되고, 이는 행동 X와 다음 상태 S′, 보상 Y 사이에 비인과적(바이디렉션) 연결을 만든다. 이러한 구조는 전통적인 정책 그래디언트와 오프라인 Q‑학습이 편향된 가치 추정으로 이어지게 만든다.

논문은 이를 해결하기 위해 Confounded Markov Decision Process(CMDP)라는 확장된 MDP 모델을 도입한다. CMDP는 상태 S, 행동 X, 보상 Y와 함께 관측되지 않은 외생 노이즈 U를 명시적으로 포함하고, 전이 f_S, 행동 f_X, 보상 f_Y 함수를 통해 삼중관계를 기술한다. 이때 행동 정책 π는 do(π) 연산을 통해 행동 f_X를 대체하고, 개입된 모델 M^π의 분포를 정의한다.

핵심 이론적 기여는 Theorem 3.1에서 제시된 “최악‑사례 하한”이다. 기존의 Causal Bellman 방정식은 이산 행동에만 적용 가능했지만, 여기서는 연속·다중모달 행동 공간에서도 적용 가능한 폐쇄형 하한식(식 8)을 도출한다. 이 식은 두 경우를 구분한다. ① 행동 x가 관측된 행동 x′와 일치하면 표준 Bellman 업데이트를 수행하고, ② 일치하지 않을 경우 최악‑사례 상태 s*에 대한 가치 min Q 를 사용해 보수적인 업데이트를 진행한다. 이렇게 하면 정책이 관측된 데이터에 내재된 혼란을 고려해 “안전한” 행동을 선택하도록 강제한다.

알고리즘 설계 측면에서 CFQL은 두 개의 흐름 기반 정책을 동시에 학습한다. (1) 행동 복제 정책 μ_ω는 연속 정규화 흐름(Normalizing Flow)으로, 관측 데이터에서 추정된 행동 분포 P(X|S)를 정확히 모사한다. (2) 목표 정책 π_θ 역시 흐름 매칭을 이용해 복잡한 연속 행동을 생성한다. 두 정책 사이의 차이를 측정하는 디스크리미네이터 D(s,x,x′)는 실제 행동과 목표 행동이 일치하는지를 근사하는 함수이며, 이는 식 9의 Q‑loss에 직접 삽입된다. 디스크리미네이터가 1에 가까울수록 표준 Q‑학습과 동일하게 동작하고, 0에 가까울수록 최악‑사례 보정항이 가중된다.

실험에서는 25개의 픽셀 기반 로봇 조작 과제(OGBench 기반)를 사용했으며, 기존 흐름 기반 오프라인 RL(FQL, Value‑Flow 등)과 비교했다. 결과는 CFQL이 평균 성공률을 120 % 향상시켰으며, 일부 과제에서는 실제 상태 기반 정책보다도 높은 성능을 기록했다. 이는 제안된 혼란‑강인 목표가 실제 환경에서의 정책 안전성을 크게 높일 수 있음을 시사한다. 또한, 제안 방법은 흐름 매칭에 국한되지 않고, 다른 연속 행동 정책(예: Diffusion 정책)에도 적용 가능함을 부록에서 보였다.

전체적으로 이 논문은 (1) 관측 혼란을 인과 그래프(CMDP)로 명시화, (2) 연속·다중모달 행동에 대한 최악‑사례 가치 하한을 수학적으로 도출, (3) 흐름 매칭과 딥 디스크리미네이터를 결합한 실용적인 알고리즘을 제시함으로써, 픽셀 기반 오프라인 RL에서의 안전하고 견고한 정책 학습에 새로운 길을 연 것으로 평가할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기