인과적 딥 Q 네트워크 학습 효율과 신뢰성 강화
본 논문은 기존 DQN이 환경의 인과 구조를 무시하고 연관성에만 의존함으로써 발생하는 허위 상관관계를 완화하기 위해, PEACE(Probabilistic Easy Variational Causal Effect) 공식을 이용한 인과 추정 기법을 DQN 학습 과정에 통합한 새로운 프레임워크를 제안한다. 인과적 보조 신호를 통해 행동‑가치 함수가 실제 원인‑결과
초록
본 논문은 기존 DQN이 환경의 인과 구조를 무시하고 연관성에만 의존함으로써 발생하는 허위 상관관계를 완화하기 위해, PEACE(Probabilistic Easy Variational Causal Effect) 공식을 이용한 인과 추정 기법을 DQN 학습 과정에 통합한 새로운 프레임워크를 제안한다. 인과적 보조 신호를 통해 행동‑가치 함수가 실제 원인‑결과 관계를 반영하도록 유도함으로써, 벤치마크 환경에서 기존 DQN 대비 샘플 효율성과 정책 안정성이 향상됨을 실험적으로 입증한다.
상세 요약
본 연구는 강화학습(RL) 분야에서 최근 주목받고 있는 인과 추론을 딥 Q‑네트워크(DQN)와 결합하는 시도를 체계적으로 전개한다. 핵심 아이디어는 에이전트가 관찰하는 상태‑행동‑보상 삼중항이 단순히 통계적 연관성에 기반한 것이 아니라, 환경 내 숨겨진 인과 메커니즘에 의해 생성된다는 가정이다. 이를 위해 저자들은 PEACE(Probabilistic Easy Variational Causal Effect) 공식을 도입한다. PEACE는 베이지안 변분 추정을 활용해 잠재적 혼동 변수(confounder)를 확률적으로 모델링하고, 특정 행동이 보상에 미치는 인과 효과를 추정한다.
구현 측면에서, 기존 DQN의 손실 함수 L_DQN = E
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...