숨은 교란을 고려한 인과 모방 학습: 전문가 관측·비관측 혼합 프레임워크
초록
본 논문은 전문가가 알고 있지만 모방 학습자는 모르는 변수와, 양쪽 모두에게 숨겨진 잡음 두 종류의 교란을 동시에 다루는 일반적인 인과 모방 학습 프레임워크를 제안한다. 궤적 이력을 도구 변수(IV)로 활용해 조건부 모멘트 제한(CMR) 형태로 문제를 재구성하고, 이를 해결하는 DML‑IL 알고리즘을 설계·이론적 분석하였다. MuJoCo 연속 제어 환경에서 기존 인과 IL 방법들을 능가하는 성능을 보였다.
상세 분석
이 논문은 기존 인과 모방 학습 연구가 각각 전문가‑관측 교란(전문가만이 접근 가능한 숨은 상태) 혹은 전문가‑비관측 교란(양쪽 모두 모르는 잡음)만을 다루어 왔던 한계를 넘어, 두 교란을 동시에 포함하는 보다 현실적인 MDP 모델을 정의한다. 숨은 교란 u_t 를 (u_t^o, u_t^ε) 로 분리함으로써, u_t^o 가 전문가 정책 π_E에 직접 영향을 주고, u_t^ε 가 상태·행동 전이와 행동에 동시에 영향을 미치는 구조를 명시한다. 핵심 가정으로는 (1) u_t^ε 가 유한한 시간 창(k) 내에서만 상관관계를 유지한다는 ‘교란 잡음 수평선’ 가정과, (2) 행동 생성식 a_t = π_E(s_t, u_t^o) + u_t^ε 라는 가법적 잡음 모델이다. 이 두 가정은 궤적 이력 h_t 를 도구 변수로 사용할 수 있게 하며, h_t 가 u_t^ε 와는 독립적이면서 u_t^o 를 부분적으로 추론할 수 있음을 보장한다.
도구 변수와 조건부 모멘트 제한(CMR)의 연결 고리를 이용해, 저자는 목표 정책 π_h (h_t) = E
댓글 및 학술 토론
Loading comments...
의견 남기기