옵션과 세계 모델을 동시에 학습하는 AgentOWL

옵션과 세계 모델을 동시에 학습하는 AgentOWL
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 옵션 계층 구조와 추상 세계 모델을 공동으로 학습하여 샘플 효율성을 크게 향상시키는 AgentOWL을 제안한다. 객체 중심 Atari 환경에서 기존 방법보다 적은 데이터로 더 많은 계층적 스킬을 획득한다.

상세 분석

AgentOWL은 두 가지 핵심 아이디어를 결합한다. 첫째, 옵션 실행 결과를 추상화한 세계 모델을 PoE‑World 방식으로 학습한다. PoE‑World는 각 전문가를 짧은 파이썬 프로그램으로 표현하고, LLM을 이용해 코드 스니펫을 생성함으로써 데이터가 극히 적어도 모델을 구축할 수 있다. 여기서 상태 추상화는 목표 프레디케이트 집합 g₁,…,g_m 만을 사용해 f(s) = (g₁(s),…,g_m(s)) 로 정의되며, “프레임 축” 사전분포를 통해 옵션이 자신의 목표 외에는 상태를 거의 변화시키지 않을 것이라는 가정을 반영한다. 둘째, 새로운 고수준 옵션을 학습할 때 기존 하위 옵션을 재활용하고, 부족한 하위 옵션은 LLM에게 전제 h 를 제시해 자동으로 생성한다. 이렇게 생성된 가설 옵션은 즉시 추상 세계 모델에 추가되어 모델‑기반 탐색(π_wm)과 실제 환경 학습(π_real) 사이의 교차 피드백을 제공한다. 학습 과정은 ε‑greedy 방식으로 π_wm의 행동을 점진적으로 감소시키며, 모델 불확실성이 높은 경우에도 실제 환경에서 직접 학습하도록 설계돼 있다. 실험에서는 Montezuma’s Revenge, Pitfall, Private Eye 등 세 가지 객체‑중심 Atari 게임에서 옵션 수와 학습 속도 모두 기존 계층형 옵션 학습 방법(예: HIRO, Option‑Critic)보다 우수함을 보였다. 특히, 옵션이 늘어날수록 행동 공간이 급격히 확대되는 전통적 모델‑프리 접근법과 달리, AgentOWL은 세계 모델을 활용해 불필요한 옵션 탐색을 사전에 차단함으로써 샘플 효율성을 유지한다. 전체 시스템은 알고리즘 1에 요약된 바와 같이 옵션 집합 Ω, 세계 모델 T, 전이 데이터 D를 순환적으로 업데이트하며, 새로운 목표에 도달할 때마다 LLM 기반 전제 생성, 모델 재학습, 정책 재초기화를 반복한다. 이러한 구조는 옵션 학습과 세계 모델 학습을 서로 강화시키는 긍정적 피드백 루프를 형성한다는 점에서 기존 연구와 차별화된다.


댓글 및 학술 토론

Loading comments...

의견 남기기