동적 환경을 위한 테스트 시점 세계 모델 혼합

동적 환경을 위한 테스트 시점 세계 모델 혼합
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

TMoW는 테스트 시점에 라우팅 함수를 재학습함으로써 기존 MoE의 고정 라우터 한계를 극복한다. 다중‑Granular 프로토타입 기반 라우팅, 테스트‑시간 프로토타입 정제, 그리고 소수 샷 증류 기반 모델 확장을 통해 가상·실제 환경에서 제로‑샷 적응과 빠른 도메인 확장을 동시에 달성한다.

상세 분석

본 논문은 LM 기반 임베디드 에이전트가 동적 환경에서 요구되는 빠른 도메인 적응성을 확보하기 위해 기존 Mixture‑of‑Experts(MoE) 구조의 라우팅 고정성을 깨뜨리는 새로운 프레임워크인 Test‑time Mixture of World Models(TMoW)를 제안한다. 핵심 아이디어는 ‘라우팅 함수’를 테스트 시점에 업데이트함으로써, 사전 학습된 세계 모델(즉, 각 도메인에 특화된 어댑터)들을 상황에 맞게 동적으로 재조합한다는 점이다. 이를 위해 세 가지 기술적 기여가 있다. 첫째, 다중‑Granular 프로토타입 기반 라우터는 관찰과 명령을 그래프 형태로 인코딩하고, 레이어‑별 MPNN을 통해 로컬 객체부터 전역 씬까지 계층적 특징을 추출한다. 각 레이어마다 계산된 프로토타입은 해당 도메인의 특성을 요약하며, 코사인 유사도를 이용해 현재 입력과의 매칭 점수를 산출한다. 둘째, 테스트‑시간 프로토타입 정제는 새로운 환경에 직면했을 때 현재 입력 임베딩과 기존 프로토타입 간 유사도를 기반으로 가중 평균을 수행한다. 정제율 α와 유사도 기반 가중치 r을 도입해 프로토타입을 점진적으로 변형함으로써, 기존 모델의 지식을 보존하면서도 미세한 도메인 변화를 포착한다. 셋째, 증류 기반 모델 증강은 소수 샷 시연 데이터를 활용해 완전히 새로운 세계 모델을 생성한다. 기존 전문가들의 혼합 출력을 교사 신호로 사용하고, LoRA와 같은 경량 어댑터를 학습시켜 새로운 도메인에 특화된 어댑터를 만든다. 이렇게 생성된 어댑터는 즉시 라우터의 프로토타입 풀에 삽입되어 향후 라우팅에 활용된다. 실험에서는 VirtualHome, ALFWorld, RLBench 세 가지 벤치마크와 실제 로봇 시나리오에서 TMoW가 기존 MoE 기반 방법보다 27.21% 높은 제로‑샷 적응 성능과 25.66% 향상된 소수 샷 확장 성능을 보였다. 특히 라우팅 스코어 히트맵을 통해 테스트‑시간 정제가 보지 않은 도메인에서도 라우팅 점수를 크게 재조정함을 시각적으로 확인하였다. 전체적으로 TMoW는 (1) 라우팅 함수의 테스트‑시간 재학습, (2) 계층적 프로토타입 설계, (3) 증류 기반 어댑터 생성이라는 세 축을 통해 MoE의 확장성을 크게 향상시켰으며, 임베디드 에이전트가 실시간으로 변화하는 물리적 환경에 적응할 수 있는 실용적인 솔루션을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기