다중의도 역강화학습을 위한 대비 학습 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CoMI‑IRL은 행동 클러스터링과 보상 학습을 분리한 변환기 기반 대비 학습 모델이다. 트래젝터리를 CLS 토큰으로 요약한 뒤 대조 손실과 Deep InfoMax을 이용해 행동 임베딩을 학습하고, k‑최근접 그래프와 Leiden 커뮤니티 탐지를 통해 사전 K값 없이 클러스터를 형성한다. 각 클러스터에 대해 기존 단일‑의도 IRL을 적용해 보상을 추정하며, 새로운 행동이 등장해도 인코더 미세조정과 두 단계 클러스터링으로 전체 재학습 없이 적응한다. 실험 결과는 기존 방법보다 클러스터 품질과 보상 복원 정확도가 우수함을 보여준다.

상세 분석

본 논문은 다중 전문가가 제공한 시연 데이터에서 내재된 여러 의도를 자동으로 구분하고, 각 의도에 대응하는 보상 함수를 추정하는 MI‑IRL 문제에 새로운 접근법을 제시한다. 기존의 대부분 방법은 잠재 코드 c를 도입해 행동 클러스터링과 보상 학습을 동시에 수행했으며, 이때 K(클러스터 수)를 사전에 고정해야 하는 한계가 있었다. CoMI‑IRL은 이러한 결합 구조를 해체하고, ‘무엇이 일어났는가’를 담당하는 행동 표현 학습과 ‘왜 일어났는가’를 담당하는 보상 학습을 완전히 독립시킨다.

행동 표현 단계에서는 트래젝터리를 정규화한 뒤, 상태와 행동 각각에 대해 랜덤 푸리에 피처(RFF)와 얕은 MLP·1D‑CNN을 적용해 저주파 편향을 보완한다. 두 시퀀스를 시간 임베딩과 모달리티 임베딩으로 보강한 뒤 interleave하고, CLS 토큰을 앞에 삽입해 변환기 인코더에 입력한다. 인코더는 전역 의존성을 캡처하고, CLS 토큰을 L2 정규화해 단위 구면 위에 임베딩을 배치한다.

대조 학습은 두 개의 dropout‑augmented view를 생성해 symmetric InfoNCE 손실을 적용하고, 추가로 트래젝터 내 여러 짧은 세그먼트를 추출해 trajectory‑segment, segment‑segment 대조 손실을 도입한다. 이는 지역‑전역 일관성을 강화하고, 동일 행동 내 변동성을 최소화한다. 또한 Deep InfoMax(DIM) 손실을 통해 로컬 피처와 전역 요약 사이의 상호 정보를 최대화함으로써 임베딩의 구조적 안정성을 확보한다. 전체 손실은 α·L_CLS + β·L_DIM + γ·L_SEG + δ·L_PAIR 형태로 가중치를 조절한다.

클러스터링 단계에서는 임베딩 간 코사인 유사도로 가중된 k‑NN 그래프를 구성하고, 연결 성분이 다수 존재하면 이를 직접 클러스터로 사용한다. 그래프가 하나의 연결 성분으로 남을 경우 Leiden 알고리즘을 적용해 모듈러리티 기반 커뮤니티를 탐지한다. 이때 Jacobian 기반 민감도 피처를 보조 가중치로 활용해 행동 역학을 보상 구조와 독립적으로 반영한다. 이렇게 얻어진 각 클러스터에 대해 기존의 딥 IRL(예: GAIL, AIRL 등)을 독립적으로 적용해 비선형 보상 함수를 학습한다.

새로운 행동이 추가될 때는 인코더를 기존 데이터와 신규 데이터를 혼합해 미세조정한다. 이 과정에서 원본 임베딩과의 코사인 차이를 최소화하는 L_stab 손실을 도입해 기존 구조를 보존한다. 이후 두 단계 클러스터링(기존 클러스터 재구성 → 신규 후보 서브클러스터링)을 수행해 기존 클러스터는 그대로 유지하고, 진짜 새로운 행동만 별도 클러스터와 보상 학습 대상으로 만든다.

실험에서는 K*와 K의 불일치 상황, K를 모르는 경우, 그리고 새로운 행동이 추가되는 연속 학습 시나리오를 테스트했다. CoMI‑IRL은 클러스터링 정밀도(NMI, ARI)와 보상 복원 오류 모두에서 기존 고정‑K 기반 방법을 크게 앞섰으며, 특히 K를 과소/과대 지정했을 때도 안정적인 성능을 유지했다. 시각화 결과는 임베딩 공간이 행동 유사도에 따라 자연스럽게 구분되는 것을 보여주어 해석 가능성도 확보한다.

요약하면, CoMI‑IRL은 (1) 변환기와 대비 학습을 통한 고품질 행동 임베딩, (2) K‑프리 그래프 기반 클러스터링, (3) 클러스터별 독립 IRL, (4) 새로운 행동에 대한 효율적 적응 메커니즘을 결합해 다중 의도 IRL 문제를 기존 한계 없이 해결한다.

다중의도 역강화학습을 위한 대비 학습 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기