인과적 딥 Q 네트워크 학습 효율과 신뢰성 강화

본 논문은 기존 DQN이 환경의 인과 구조를 무시하고 연관성에만 의존함으로써 발생하는 허위 상관관계를 완화하기 위해, PEACE(Probabilistic Easy Variational Causal Effect) 공식을 이용한 인과 추정 기법을 DQN 학습 과정에 통합한 새로운 프레임워크를 제안한다. 인과적 보조 신호를 통해 행동‑가치 함수가 실제 원인‑결과

초록

상세 요약

본 연구는 강화학습(RL) 분야에서 최근 주목받고 있는 인과 추론을 딥 Q‑네트워크(DQN)와 결합하는 시도를 체계적으로 전개한다. 핵심 아이디어는 에이전트가 관찰하는 상태‑행동‑보상 삼중항이 단순히 통계적 연관성에 기반한 것이 아니라, 환경 내 숨겨진 인과 메커니즘에 의해 생성된다는 가정이다. 이를 위해 저자들은 PEACE(Probabilistic Easy Variational Causal Effect) 공식을 도입한다. PEACE는 베이지안 변분 추정을 활용해 잠재적 혼동 변수(confounder)를 확률적으로 모델링하고, 특정 행동이 보상에 미치는 인과 효과를 추정한다.

구현 측면에서, 기존 DQN의 손실 함수 L_DQN = E

초록

상세 요약

📜 논문 원문 (영문)