적응형 교차구현 시각운동 정책을 위한 대조 프롬프트 오케스트레이션
초록
CAPO는 CLIP 기반의 학습 가능한 프롬프트를 활용해 시각 표현을 다중으로 생성하고, 현재 관측에 따라 동적으로 프롬프트를 조합하는 어댑티브 오케스트레이션 모듈을 도입한다. 시각·행동·텍스트 대조 학습을 결합한 하이브리드 대조 손실로 도메인 특성을 캡처하고, 강화학습과 공동 최적화함으로써 조명·시야·구조 변화 등 교차 구현 환경에서도 샘플 효율성을 유지하면서 제로샷 적응을 달성한다.
상세 분석
본 논문은 로봇·에이전트와 같은 구현체가 다양한 센서 배치와 물리적 파라미터(예: 시야각, 보폭) 변화에 직면했을 때, 기존 엔드‑투‑엔드 혹은 디커플드 방식이 겪는 도메인 간 격차 문제를 해결하고자 한다. 핵심 아이디어는 두 단계로 구성된다. 첫 번째는 “대조 프롬프트 학습”이다. 저자는 사전 학습된 멀티모달 백본인 CLIP을 고정하고, 여러 개의 가벼운 프롬프트 파라미터를 학습한다. 각 프롬프트는 관측 이미지에 삽입돼 서로 다른 도메인 요인을 강조하는 임베딩을 생성한다. 이때 손실 함수는 세 가지 대조 목표를 동시에 최적화한다. (1) 시각 대조: 동일 장면의 서로 다른 조명·시점 변형을 양성 쌍으로, 다른 장면을 음성 쌍으로 삼아 이미지 임베딩을 정렬한다. (2) 행동 대조: 시간적 연속성에 기반해 같은 행동 시퀀스에 속하는 프레임을 양성, 다른 행동을 음성으로 하여 행동‑시각 연관성을 학습한다. (3) 텍스트 대조: 사전 정의된 도메인 설명(예: “low illumination”, “wide FOV”)을 텍스트 임베딩과 매칭시켜 프롬프트가 의미론적 도메인 라벨을 내재하도록 유도한다. 이러한 다중 대조는 프롬프트가 순수한 시각 특징이 아니라, 도메인‑특정 요인을 포함한 풍부한 표현을 학습하도록 만든다.
두 번째 단계는 “어댑티브 프롬프트 오케스트레이션”이다. 관측 이미지가 들어오면, 각 프롬프트가 생성한 임베딩을 두 갈래 어텐션 네트워크에 입력한다. 하나는 이미지‑프롬프트 간 상관관계를 평가해 가중치를 산출하고, 다른 하나는 시간적 컨텍스트(최근 행동 히스토리)를 고려해 프롬프트 중요도를 조정한다. 최종적으로 가중합된 임베딩이 정책 네트워크에 전달되며, 정책 파라미터와 오케스트레이션 파라미터가 강화학습(예: PPO) 목표와 함께 공동 최적화된다. 이 구조는 (1) 프롬프트 자체는 사전 학습된 CLIP에 의해 안정성을 확보하고, (2) 오케스트레이션 모듈이 현재 환경에 맞춰 프롬프트를 동적으로 선택·조합함으로써 정적 표현의 한계를 극복한다는 장점을 갖는다.
실험에서는 조명 변화, 시야각 변동, 로봇 본체 교체(예: 팔 길이·관절 수) 등 3가지 교차 구현 시나리오를 설정하고, 기존 도메인 랜덤화, 정적 CLIP 프롬프트, 최신 적응형 비전 인코더와 비교하였다. CAPO는 학습 초기에 샘플 효율성이 크게 향상돼 동일 에피소드 수 대비 30 % 이상 빠르게 수렴했으며, 제로샷 테스트에서 목표 도메인 성공률이 70 % 이상으로 가장 높았다. 특히, 조명·시야가 동시에 변하는 복합 상황에서도 정책이 급격히 붕괴되지 않고 안정적인 행동을 유지한 점이 주목할 만하다.
한계점으로는 프롬프트 수와 오케스트레이션 네트워크 복잡도가 증가하면 학습 비용이 상승하고, 프롬프트가 과도하게 도메인 특화될 경우 완전 새로운 도메인(예: 전혀 다른 카메라 스펙)에서는 성능 저하가 관찰된다. 향후 연구에서는 프롬프트의 메타‑학습 혹은 자동 프롬프트 수 조절 메커니즘을 도입해 이러한 문제를 완화할 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기