혼란에 강인한 연속 제어를 위한 자동 보상 형성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 오프라인 데이터에 존재할 수 있는 관측되지 않은 교란 변수들을 고려하여, 인과적 벨먼 방정식을 기반으로 최적 상태값의 상한을 학습하고 이를 잠재 기반 보상 형성(PBRS)에서 잠재 함수로 활용한다. 학습된 잠재 함수를 SAC에 적용해 MuJoCo·Adroit 등 연속 제어 벤치마크에서 교란 상황에서도 기존 방법보다 높은 샘플 효율과 성능을 달성한다.
상세 분석
이 연구는 기존 보상 형성 기법이 “관측되지 않은 교란(NUC) 가정”에 크게 의존한다는 점을 비판한다. 실제 로봇 시스템에서는 시뮬레이션과 달리 센서 제한, 인간 시연자의 숨은 의도 등으로 인해 행동 정책과 상태 전이·보상이 교란 변수 U에 동시에 영향을 받는다. 저자들은 이러한 상황을 “Confounded Markov Decision Process (CMDP)”라는 형식으로 정의하고, 행동 정책 β와 전이·보상 함수가 모두 U에 조건부로 의존함을 명시한다.
핵심 이론은 “Causal Bellman Optimality Equation”이다. 기존 벨먼 최적 방정식은 E
댓글 및 학술 토론
Loading comments...
의견 남기기