SHAP 기반 커널 액터 크리틱으로 설명 가능한 강화학습

SHAP 기반 커널 액터 크리틱으로 설명 가능한 강화학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 상태 차원별 기여도를 SHAP 값으로 정량화하고, 이를 Mahalanobis 가중치와 결합한 커널 기반 액터‑크리틱(RSA2C)을 제안한다. 가치 비평가와 이점 비평가를 스칼라 RKHS에, 액터를 벡터값 RKHS에 매핑하고, 희소 사전(dictionary) 기반 온라인 학습을 적용한다. 상태 교란 하에서도 수렴을 보장하는 비대칭 비동기 이론을 제공하며, 연속 제어 환경에서 효율성·안정성·해석성을 동시에 달성한다.

상세 분석

RSA2C는 기존 AC 구조의 “블랙박스” 문제를 두 단계에서 해소한다. 첫째, 가치 비평가에 RKHS‑SHAP을 적용해 온‑매니폴드(KME)와 오프‑매니폴드(CME) 두 종류의 샤플리 값을 실시간으로 계산한다. KME는 경험 데이터의 관측 분포를 그대로 반영해 상태 간 상관관계를 보존하고, CME는 조건부 평균 임베딩을 통해 특정 차원을 고정했을 때의 반사 효과를 추정한다. 이렇게 얻은 샤플리 값은 각 상태 차원의 중요도를 정량화하는데, Mahalanobis 거리 기반 가중치와 곱해져 액터의 정책 그라디언트와 이점 비평가의 목표값에 직접 삽입된다. 결과적으로 정책 업데이트가 “중요한 차원”에 더 큰 학습 신호를 받게 되어 샘플 효율성이 향상된다.

둘째, 함수 근사와 최적화 안정성을 동시에 확보한다. 액터는 연산량을 제어하기 위해 연산자값 커널(OVK)을 사용하고, Mahalanobis 가중치를 커널 매트릭스에 내재화한다. 이는 상태 차원 간 공분산 구조를 학습 과정에 반영해 정책이 고차원 연속 공간에서도 부드럽게 변하도록 만든다. 가치·이점 비평가는 각각 스칼라 RKHS에 배치하고, ALD(Approximate Linear Dependence) 기반 희소 사전을 유지한다. 사전 크기는 사전에 정의된 임계값으로 제한되며, 새로운 샘플이 기존 사전과 선형 독립성을 보이면 사전에 추가된다. 이 메커니즘은 메모리와 계산 복잡도를 O(|D|)로 유지하면서도 비선형 함수 근사의 표현력을 보존한다.

이론적 측면에서 저자는 두 시간 척도(two‑timescale) 업데이트를 전제로, 상태 교란을 포함한 비동기 마르코프 프로세스 하에서 전역 비대칭 비점근적 수렴 경계를 도출한다. 수렴 오차는 “perturbation‑error”(샤플리 값의 변동과 정책 학습에 미치는 영향)와 “convergence‑error”(트래킹 오차와 두 시간 척도 근사 오차)로 분해된다. 특히, Mahalanobis‑gated 샤플리 가중치가 perturbation‑error를 억제해 정책이 잡음에 강인함을 보장한다.

실험에서는 MuJoCo 기반 연속 제어 환경인 Hopper‑v4, Walker2d‑v4, Ant‑v5를 사용했으며, RSA2C‑KME와 RSA2C‑CME 두 변형을 비교했다. 결과는 기존 PPO, SAC, TD3 등과 비교해 평균 반환이 5~12% 향상되고, 학습 곡선의 변동성이 현저히 감소함을 보여준다. 또한, 각 상태 차원의 샤플리 값 시각화를 통해 “관절 각도”와 “속도” 같은 물리적 변수의 상대적 중요도를 직관적으로 해석할 수 있었다.

요약하면, RSA2C는 (1) RKHS‑SHAP을 통한 정밀한 상태 차원 기여도 추정, (2) Mahalanobis 가중치를 통한 정책 그라디언트 조정, (3) 희소 커널 사전 기반 효율적 비선형 근사, (4) 상태 교란을 고려한 비대칭 수렴 보장을 결합한 최초의 프레임워크라 할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기