멀티에이전트 기반 세계 모델 자동 생성 및 학습 프레임워크

읽는 시간: 4 분
...

📝 원문 정보

  • Title:
  • ArXiv ID: 2512.22336
  • 발행일:
  • 저자: Unknown

📝 초록 (Abstract)

상징적 세계 모델(PDDL 도메인이나 실행 가능한 시뮬레이터 등)은 모델 기반 계획에 핵심적이지만, 대규모 검증 가능한 지도 학습 데이터가 부족해 대형 언어 모델(LLM)에게 이러한 모델을 생성하도록 교육하는 데 한계가 있다. 기존 방법은 정적 검증에 의존해 인터랙티브 실행 과정에서 발생하는 행동 수준 오류를 포착하지 못한다. 본 논문에서는 AGENT2WORLD라는 도구 보강형 다중 에이전트 프레임워크를 제안한다. AGENT2WORLD는 추론 시 강력한 세계 모델 생성 능력을 제공할 뿐 아니라, 다중 에이전트 피드백을 통해 감독 학습용 데이터를 생성하는 데이터 엔진 역할도 수행한다. 파이프라인은 세 단계로 구성된다: (i) Deep Researcher 에이전트가 웹 검색을 통해 사양 공백을 메우며 지식 합성을 수행하고, (ii) Model Developer 에이전트가 실행 가능한 세계 모델을 구현하며, (iii) 특화된 Testing Team이 적응형 유닛 테스트와 시뮬레이션 기반 검증을 진행한다. AGENT2WORLD는 PDDL과 실행 코드 표현을 모두 포함하는 세 가지 벤치마크에서 추론 성능이 기존 최고 수준을 지속적으로 능가함을 보인다. 또한 Testing Team은 Model Developer에게 행동 인식 적응형 피드백을 제공하여 다중 턴 학습 궤적을 생성한다. 이러한 궤적으로 미세조정된 모델은 세계 모델 생성 능력이 크게 향상되어, 미세조정 전 대비 평균 30.95%의 상대적 성능 향상을 달성한다. 프로젝트 페이지: agent2world.github.io.

💡 논문 핵심 해설 (Deep Analysis)

AGENT2WORLD는 기존 LLM 기반 세계 모델 생성 연구가 직면한 두 가지 핵심 문제—대규모 검증 가능한 학습 데이터 부족과 정적 검증의 한계—를 동시에 해결하려는 혁신적인 접근이다. 첫 번째 단계인 Deep Researcher 에이전트는 자동화된 웹 검색과 정보 추출 파이프라인을 통해 사양 문서에 존재하는 빈틈을 메우고, 최신 연구·산업 동향을 반영한 지식을 동적으로 수집한다. 이는 인간 연구자가 수행하는 ‘문헌 조사’ 과정을 모델링한 것으로, 모델이 최신 도메인 지식을 반영하도록 보장한다. 두 번째 단계인 Model Developer 에이전트는 수집된 지식을 기반으로 실제 실행 가능한 PDDL 파일이나 시뮬레이터 코드를 자동으로 생성한다. 여기서 중요한 점은 생성된 코드가 문법적으로만 올바른 것이 아니라, 논리적 일관성을 갖추도록 설계되었다는 것이다. 세 번째 단계인 Testing Team은 전통적인 정적 테스트 스위트와 달리, 적응형 유닛 테스트와 시뮬레이션 기반 검증을 결합한다. 테스트는 모델이 실제 환경에서 수행되는 행동을 관찰하고, 예상과 다른 동작이 발견될 경우 즉시 피드백을 제공한다. 이러한 피드백은 다중 턴 대화 형태로 Model Developer에게 전달되어, 모델이 오류를 수정하고 점진적으로 개선될 수 있게 만든다. 특히, 테스트 과정에서 생성된 ‘행동‑레벨 오류’ 데이터는 고품질 감독 신호로 활용되어, 이후 미세조정 단계에서 LLM을 재학습시키는 데 사용된다. 실험 결과는 세 가지 벤치마크(전통적인 PDDL 플래너, 코드 기반 시뮬레이터, 복합형 하이브리드 도메인) 모두에서 AGENT2WORLD가 기존 최첨단 방법보다 일관되게 높은 성공률과 낮은 오류율을 기록했음을 보여준다. 특히, 미세조정 후 모델은 평균 30.95%의 성능 향상을 달성했으며, 이는 테스트 피드백이 단순 검증을 넘어 학습 데이터 생성에 직접 기여했음을 의미한다. 이 논문은 LLM이 복잡한 실행 코드나 형식화된 도메인 정의를 생성할 때, 정적 검증만으로는 포착하기 어려운 미묘한 논리적 결함을 발견하고 교정할 수 있는 체계적인 프레임워크를 제시한다. 향후 연구에서는 에이전트 간 협업 전략을 강화하고, 더 다양한 도메인(예: 로보틱스, 게임 AI)으로 확장함으로써, 자동화된 세계 모델 생성과 지속적인 자기 개선이 가능한 진정한 ‘자율 연구·개발·검증’ 사이클을 구축할 수 있을 것으로 기대된다.

📄 논문 본문 발췌 (Translation)

상징적 세계 모델(예: PDDL 도메인 또는 실행 가능한 시뮬레이터)은 모델 기반 계획에 핵심적인 역할을 수행하지만, 대규모 검증 가능한 지도 학습 데이터를 확보하기 어려워 대형 언어 모델(LLM)에게 이러한 세계 모델을 생성하도록 교육하는 데 한계가 있다. 기존 접근 방식은 주로 정적 검증 방법에 의존하여 인터랙티브 실행 과정에서 발생하는 행동 수준 오류를 포착하지 못한다. 본 논문에서는 AGENT2WORLD라는 도구 보강형 다중 에이전트 프레임워크를 제안한다. AGENT2WORLD는 추론 시 강력한 세계 모델 생성 능력을 제공할 뿐만 아니라, 다중 에이전트 피드백을 통해 생성 과정을 기반으로 감독 학습용 데이터를 생산하는 데이터 엔진 역할도 수행한다. AGENT2WORLD는 세 단계 파이프라인을 따른다: (i) Deep Researcher 에이전트가 웹 검색을 수행하여 사양의 공백을 메우고 지식 합성을 수행한다; (ii) Model Developer 에이전트가 실행 가능한 세계 모델을 구현한다; (iii) 특화된 Testing Team이 적응형 유닛 테스트와 시뮬레이션 기반 검증을 수행한다. AGENT2WORLD는 PDDL과 실행 코드 표현을 모두 포함하는 세 가지 벤치마크 전반에 걸쳐 추론 성능이 기존 최고 수준을 지속적으로 능가함을 입증한다. 추론 외에도 Testing Team은 Model Developer에게 행동 인식 적응형 피드백을 제공하여 다중 턴 학습 궤적을 생성한다. 이러한 궤적으로 미세조정된 모델은 세계 모델 생성 능력이 크게 향상되어, 미세조정 전 대비 평균 30.95%의 상대적 성능 향상을 달성한다. 프로젝트 페이지: agent2world.github.io.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키