인과관점에서 본 설명가능 강화학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 구조적 인과모델(SCM)을 강화학습(RL) 과정에 통합하여, 에이전트의 행동을 ‘왜(Why)’와 ‘왜 아니오(Why‑not)’ 질문에 대한 인과적·대조적 설명으로 제공한다. 제안된 액션 인플루언스 모델을 학습하고, 이를 기반으로 최소·완전 설명과 대조적 설명을 생성한다. 스타크래프트 II 환경에서 120명의 참가자를 대상으로 수행한 사용자 연구에서, 인과모델 기반 설명이 기존 두 가지 베이스라인보다 과제 예측 정확도, 설명 만족도, 신뢰도(신뢰도는 통계적으로 유의미하지 않음)에서 우수함을 보였다.

상세 분석

이 논문은 인간이 세계를 인과관계로 이해한다는 인지과학적 가설을 강화학습 설명에 적용한다는 점에서 이론적·실용적 의미가 크다. 먼저 저자들은 기존의 구조적 인과모델(SCM)을 강화학습의 MDP 프레임에 ‘액션 인플루언스 모델’이라는 형태로 확장한다. 여기서는 상태 변수 V와 행동 집합 A를 모두 인과 그래프의 노드와 엣지에 매핑하고, 각 행동마다 별도의 구조 방정식 F_X.A 를 정의한다. 이렇게 하면 특정 행동이 어떤 상태 변수에 어떤 양적 영향을 미치는지를 명시적으로 학습할 수 있다.

학습 단계에서는 강화학습 에이전트가 정책 π를 최적화하면서 동시에 행동‑상태 간 인과 관계 파라미터를 추정한다. 저자들은 6개의 RL 벤치마크와 6가지 알고리즘(DQN, PPO 등)을 사용해 모델의 정확도와 성능 영향을 검증했으며, 정책 성능 저하 없이 인과 모델을 충분히 학습할 수 있음을 보였다.

설명 생성은 세 단계로 구성된다. (1) 인과 그래프에서 행동의 ‘헤드 노드’와 ‘리워드 노드’를 식별하고, (2) 실제 인스턴스에서 해당 노드들의 값을 구해 완전 설명을 만든다. 완전 설명은 행동 → 중간 상태 변수 → 최종 보상까지의 전체 인과 사슬을 포함한다. (3) 인간 인지 부하를 고려해 ‘최소 완전 설명’을 정의한다. 이는 헤드 노드와 보상 전 단계의 직접 전임자만을 포함해, 핵심 원인과 목표만을 제시한다.

‘왜 아니오(Why‑not)’ 질문에 대해서는 대조적 설명을 제공한다. 먼저 대조 행동 B에 대한 ‘반사실 인스턴스’를 시뮬레이션하여, 해당 행동이 선택되었을 경우 필요한 전제 상태를 도출한다. 그런 다음 실제 행동 A와 대조 행동 B의 최소 완전 설명을 비교해 차이점만을 강조한다. 이 과정은 인과적 차이 조건(difference condition)을 만족하며, 사용자가 “왜 A가 선택됐고 B는 선택되지 않았는가?”를 직관적으로 이해하도록 돕는다.

사용자 연구에서는 스타크래프트 II 시나리오를 활용해 120명의 비전문가에게 세 종류의 설명(인과 모델 기반, 기존 베이스라인1, 베이스라인2)을 순차적으로 제공했다. 실험 결과, 인과 모델 기반 설명이 과제 예측 정확도와 설명 만족도에서 유의미하게 높은 점수를 받았으며, 신뢰도는 다른 두 모델과 차이가 없었다. 이는 인과적 설명이 사용자의 이해를 촉진하지만, 신뢰 형성에는 추가적인 요소(예: 투명성, 일관성)가 필요함을 시사한다.

전체적으로 이 논문은 (1) 강화학습 정책에 인과 모델을 자연스럽게 결합하는 방법론, (2) 인과 그래프를 활용한 ‘왜’·‘왜 아니오’ 질문에 대한 체계적 설명 생성 메커니즘, (3) 실제 사용자 평가를 통한 실효성 검증이라는 세 축을 동시에 제시한다는 점에서 XAI·RL 분야에 중요한 기여를 한다. 특히 인과적·대조적 설명이 인간의 인과적 사고와 잘 맞물려, 복잡한 RL 에이전트의 행동을 비전문가에게도 직관적으로 전달할 수 있다는 점이 주목할 만하다.

인과관점에서 본 설명가능 강화학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기