xTED: 도메인 차이를 없애는 확산 기반 궤적 편집

xTED: 도메인 차이를 없애는 확산 기반 궤적 편집
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

xTED는 목표 도메인의 궤적 분포를 학습한 확산 모델을 이용해, 소스 도메인에서 수집된 상태·행동·보상 시퀀스를 노이즈 추가·제거 과정을 통해 목표 도메인에 맞게 변환한다. 이 과정은 원래의 작업 의미를 보존하면서 시각·동역학·형태 차이를 보정한다. 변환된 데이터는 기존 강화·모방 학습 알고리즘에 그대로 적용 가능하며, 시뮬레이션 및 실제 로봇 실험에서 기존 방법보다 높은 성능을 보였다.

상세 분석

xTED는 기존 교차 도메인 정책 전이 연구가 정책 자체에 복잡한 도메인 매핑·보정 모듈을 삽입하는 데 초점을 맞춘 점을 비판한다. 이러한 접근은 모델 구조를 무겁게 만들고, 여러 소스 도메인에 대해 재학습·튜닝이 필요하다는 단점을 가진다. 논문은 “데이터 수준에서 도메인 격차를 직접 메우는 것이 더 유연하고 효율적”이라는 가설을 세우고, 이를 구현하기 위해 확산 모델을 궤적 편집에 적용한다.

핵심 기술은 세 가지이다. 첫째, 목표 도메인 궤적을 이용해 확산 모델을 사전 학습한다. 여기서 확산 과정은 연속적인 노이즈 단계 K까지 진행되며, 각 단계에서 상태·행동·보상 시퀀스를 별도의 서브네트워크(f_s, f_a, f_r)로 인코딩한다. 인코딩된 잠재 표현은 시간 축에 대한 자기‑주의(Self‑Attention) 블록을 통과해 순차적 의존성을 학습한다.

둘째, 상태와 행동 사이, 그리고 상태·행동과 보상 사이의 인과적 관계를 반영하기 위해 교차‑주의(Cross‑Attention) 메커니즘을 도입한다. 구체적으로 h_s와 h_a는 서로의 키‑값을 교환해 상호 의존성을 포착하고, 보상 임베딩 h_r은


댓글 및 학술 토론

Loading comments...

의견 남기기