경험 기반 지식 교정으로 마인크래프트 계획을 견고하게

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

XENON은 경험을 활용해 LLM의 잘못된 아이템 의존성 및 행동 지식을 자동으로 수정하는 두 가지 메커니즘(Adaptive Dependency Graph와 Failure‑aware Action Memory)을 도입한다. 이 시스템은 이진 성공/실패 피드백만으로도 복잡한 의존 관계를 학습하고, 7B 오픈‑소스 LLM만으로도 GPT‑4 수준의 대형 모델을 능가하는 장기 목표 달성 능력을 보인다.

상세 분석

본 논문은 마인크래프트와 같은 장기 목표가 복잡한 환경에서 LLM 기반 플래너가 갖는 “플라워링(prior) 오류” 문제를 근본적으로 해결하고자 한다. 기존 연구들은 파인튜닝, 위키 기반 지식 주입, 혹은 LLM 자체의 자기 교정에 의존했지만, 파라메트릭 지식이 고정돼 있어 반복적인 오류를 탈피하지 못한다는 한계가 있었다. XENON은 외부 지식 그래프와 행동 메모리를 별도로 관리함으로써, LLM이 생성한 초기 의존성 그래프를 경험 기반 알고리즘으로 지속적으로 정제한다.

Adaptive Dependency Graph (ADG)
- 초기 그래프는 LLM이 예측한 의존성을 바탕으로 구축되며, 누락·과잉 의존성을 포함할 수 있다.
- 경험(성공적인 아이템 획득)에서 추출한 실제 요구 집합 R_exp(v)를 이용해 그래프를 업데이트한다.
- RevisionByAnalogy 라는 절차를 통해, 특정 아이템 v가 여러 차례 실패하면 (C(v) > c₀) 해당 아이템을 “환상(hallucinated)”으로 간주하고, 그 후손들의 의존성을 재귀적으로 제거한다.
- 실패 횟수가 제한 이하일 경우, 유사하게 성공한 상위 K개의 아이템의 요구 집합을 참고해 새로운 의존성을 제안한다. 여기서 아이템 유사도는 Sentence‑BERT 임베딩의 코사인 유사도로 측정한다.
Failure‑aware Action Memory (FAM)
- 행동 지식은 (아이템 → 고수준 행동) 매핑 형태로 저장된다.
- 실행 후 이진 피드백을 받으면, 성공한 행동은 메모리에 보존하고, 실패한 행동은 카운트한다.
- 특정 행동이 반복적으로 실패하면, FAM은 해당 행동을 “비효율”으로 표시하고, LLM에게 대안 행동을 탐색하도록 프롬프트를 제한한다.
- 이렇게 행동 실패와 의존성 실패를 구분함으로써, ADG와 FAM이 상호 보완적으로 작동한다.
알고리즘 흐름
- 목표 아이템을 탐색 목표로 선정 → ADG가 요구 아이템 리스트를 생성 → 각 아이템에 대해 FAM이 기존 성공 행동을 재사용하거나 LLM에게 새로운 행동을 요청 → 컨트롤러가 저수준 액션을 실행 → 성공/실패 피드백을 ADG와 FAM에 전달 → 그래프와 행동 메모리 업데이트.
실험 및 결과
- 세 가지 마인크래프트 벤치마크(기본 아이템 수집, 복합 제작, 장기 목표 연속 수행)에서 XENON은 기존 최첨단 에이전트(ADAM, Optimus‑1, DECKARD 등)를 크게 앞선다.
- 특히 7B LLM(Qwen2.5‑VL‑7B)만 사용했음에도 불구하고, GPT‑4 기반 에이전트를 능가하는 성공률을 기록했다.
- 의존성 정확도(N_true)와 행동 선택 정확도 모두 20‑30%p 상승했으며, 환상 아이템을 자동 제거하는 메커니즘이 그래프의 사이클 및 불필요한 분기를 크게 감소시켰다.
의의와 한계
- LLM 자체의 파라메트릭 지식에 의존하지 않고, 외부 메모리를 알고리즘적으로 교정한다는 점에서 “지식 외부화”라는 새로운 패러다임을 제시한다.
- 현재는 이진 피드백만을 사용하므로, 세밀한 원인 분석이 어려워 복합적인 실패 원인을 완전히 구분하지 못한다는 점이 남는다. 향후 다중 레벨 피드백(예: 부분 성공, 자원 소모량)과 더 풍부한 탐색 전략을 결합하면 더욱 강력한 시스템이 될 것으로 기대된다.

경험 기반 지식 교정으로 마인크래프트 계획을 견고하게

초록

상세 분석

댓글 및 학술 토론

의견 남기기