동적 불일치 극복을 위한 선택적 전이 보정 기법

동적 불일치 극복을 위한 선택적 전이 보정 기법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 소스와 타깃 도메인의 동역학이 다를 때, 오프라인 강화학습에서 소스 데이터를 직접 사용하면 성능 저하가 발생한다는 문제를 해결한다. 저자는 타깃 도메인에서 학습한 역정책 모델과 보상 모델을 이용해 소스 전이의 행동과 보상을 수정하고, 타깃 도메인의 전이 모델을 활용해 보정된 샘플을 선택적으로 수용한다. 이 과정을 “선택적 전이 보정(Selective Transition Correction, STC)”이라 명명하고, 이론적 오류 한계와 실험을 통해 기존 필터링 기반 방법보다 우수함을 입증한다.

상세 분석

이 연구는 교차 도메인 오프라인 강화학습(Cross‑Domain Offline RL)에서 흔히 마주치는 “동역학 불일치” 문제에 새로운 접근법을 제시한다. 기존 방법들은 소스 데이터의 일부를 필터링하거나 보상을 페널티 형태로 조정해 타깃 데이터와의 차이를 최소화하려 했지만, 이는 소스 데이터의 활용도를 크게 제한한다는 단점을 가지고 있었다. 저자들은 소스 전이를 그대로 버리기보다, 타깃 도메인에 맞게 변형하는 방향을 선택한다. 구체적으로, 타깃 데이터만을 이용해 역정책 모델 f_inv(s, s′)를 학습한다. 이 모델은 주어진 현재 상태와 다음 상태 사이에서 가장 가능성이 높은 행동을 예측하도록 설계되었으며, 손실 함수는 L2 거리 최소화 형태이다. 학습된 역정책을 소스 전이 (s_src, a_src, s′_src)에 적용하면, a_src를 f_inv(s_src, s′_src)로 대체한 보정 행동 ˆa_src를 얻는다.

보상 보정은 보상 모델 r(s, a)를 타깃 데이터에 대해 학습한 뒤, 1차 테일러 전개를 이용해 원래 보상 r_src에 ∇_a r(s_src, a_src)·(ˆa_src−a_src) 를 더한다. 여기서 ∇_a r는 행동에 대한 보상 함수의 기울기로, L2 정규화와 클리핑을 통해 안정성을 확보한다. 이렇게 하면 행동이 바뀐 만큼 보상도 일관되게 조정되어, 보상 함수가 부드럽다는 가정 하에 OOD 행동에 대한 과도한 추정 위험을 완화한다.

하지만 역정책 모델은 타깃 데이터가 제한적일 경우 OOD 영역에서 부정확할 수 있다. 이를 보완하기 위해 저자들은 전이 모델 f_fwd(s, a) 를 추가로 학습한다. 보정된 전이 (s_src, ˆa_src, s′_src, ˆr_src)가 전이 모델에 입력되었을 때 예측된 다음 상태와 실제 s′_src 사이의 차이가 일정 임계값 이하인 경우에만 해당 샘플을 최종 데이터셋에 포함한다. 즉, 전이 모델이 “타깃 동역학에 잘 맞는” 샘플만을 선택적으로 받아들여, 잘못된 보정으로 인한 성능 저하를 방지한다.

이론적 분석에서는 (1) 동역학 차이 ‖eP_src−bP_tar‖ ≤ κ+ε 로 보정된 전이와 타깃 전이 사이의 차이가 역정책 오차 κ와 원래 도메인 차이 ε에 의해 제한됨을 증명한다. (2) Q‑값 차이 |Q_fM_src−Q_cM_src| ≤ 2L_r/(1−γ)·TV(µ_src‖µ_tar) 로, 행동 분포 차이가 보상 평활성 L_r에 비례해 Q‑값에 미치는 영향을 정량화한다. (3) 최종 성능 경계 J_fM_src(π)−J_M_tar(π) ≥ −γ r_max(κ+ε)/(1−γ)^2 − C_1 r_1/n·ln(2C_2/δ) 를 제시해, 데이터 양 n이 충분히 크고 역정책 오차 κ가 작을수록 보정된 소스 데이터가 타깃 도메인에서 거의 동일한 성능을 보장한다는 점을 강조한다.

실험에서는 MuJoCo 기반 연속 제어 환경과 로봇 시뮬레이션 등에서 동역학 파라미터(마찰, 질량 등)를 변형한 여러 시나리오를 구성하였다. 기존의 Mutual‑Information 필터링, Optimal‑Transport 매핑, 보상 페널티 방식과 비교했을 때, STC는 평균 누적 보상에서 5~15% 정도의 향상을 기록했으며, 특히 동역학 차이가 크게 나는 경우에도 안정적인 학습 곡선을 보였다. 선택적 보정 메커니즘이 없을 경우(전부 보정) 성능이 급격히 떨어지는 현상이 관찰되어, 전이 모델 기반 선택이 실제로 중요한 역할을 함을 실증하였다.

요약하면, 이 논문은 (1) 역정책을 통한 행동 보정, (2) 보상 모델 기반 보상 조정, (3) 전이 모델 기반 샘플 선택이라는 세 가지 핵심 요소를 결합해, 소스 도메인의 풍부한 데이터를 타깃 도메인에 맞게 “재구성”함으로써 오프라인 정책 적응의 효율성을 크게 높였다. 이 접근법은 데이터가 제한된 실제 로봇 혹은 산업 현장에 적용 가능하며, 향후 다중 소스 도메인, 비정형 관측값 등에 대한 확장 연구의 기반을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기