WorldLLM: 호기심 기반 이론 만들기로 LLM의 세계 모델링을 혁신하다
초록
WorldLLM은 LLM을 통계 모델(Statistician)로 사용하고, 두 번째 LLM을 가설 생성기(Scientist)로 활용해 베이지안 추론으로 가설을 지속적으로 갱신한다. 동시에 호기심‑구동 강화학습 에이전트(Experimenter)가 현재 가설에 대한 예측 오류가 큰 전이 데이터를 수집한다. 텍스트 기반 게임 환경에서 실험한 결과, 예측 정확도가 크게 향상되고 인간이 이해할 수 있는 자연어 형태의 환경 이론이 자동으로 도출된다.
상세 분석
WorldLLM은 기존 LLM 기반 세계 모델링이 “광범위하지만 얕은” 일반 지식에 머무르는 한계를 극복하기 위해 세 가지 모듈을 순환적으로 결합한다. 첫 번째 모듈인 Statistician은 사전학습된 LLM(Phi‑3‑mini‑4k‑Instruct)을 이용해 상태‑행동 쌍 (s, a)와 현재 가설 집합 H를 프롬프트에 삽입하고, 다음 상태 s′에 대한 조건부 확률 P(s′|s,a,H)를 직접 추정한다. 여기서 H는 자연어 형태의 규칙·이론이며, LLM이 이를 “읽고” 예측에 반영하도록 설계되었다는 점이 핵심이다.
두 번째 모듈인 Scientist는 가설 공간을 탐색하기 위해 또 다른 LLM을 제안 분포 P_sc(Ĥ|D, Ĥ_prev) 로 사용한다. 베이지안 프레임워크 안에서 메트로폴리스‑헤이스팅스 알고리즘을 적용해 현재 데이터 D(Experimenter가 수집한 전이)와 기존 가설 Ĥ_prev을 입력으로 새로운 후보 가설 Ĥ_i 를 생성한다. 후보 가설의 품질은 Statistician이 해당 가설을 사용해 계산한 로그우도 Σ_{(s,a,s′)∈D} log P(s′|s,a,Ĥ_i) 로 평가되며, 우도 향상이 있으면 채택한다. 이 과정은 매 반복마다 n=5 단계의 메트로폴리스 스텝을 수행해 가설을 점진적으로 개선한다.
세 번째 모듈인 Experimenter는 “증거 수집기” 역할을 한다. 두 가지 구현이 제시되는데, 하나는 사전 정의된 오라클 정책(O‑Ideal, O‑Curriculum, O‑Hardest, O‑Random)이며, 다른 하나는 호기심‑구동 내재 보상으로 학습되는 RL 에이전트이다. RL‑LogP는 예측 로그우도의 부정값을 보상으로 사용해 예측이 어려운 전이를 탐색한다. RL‑ALP는 이전 단계와 현재 단계 사이의 로그우도 차이의 절댓값, 즉 학습 진행(Learning Progress)을 보상으로 삼아 에피소드별 학습 효과가 큰 전이를 우선 수집한다. RL‑ALPEXP는 전이 공간을 사전에 정의된 서브스페이스(예: Standing, Holding1, Holding2, GrowPlant 등)로 나누고 각 서브스페이스별 ALP를 계산해 보상의 변동성을 감소시킨다.
실험은 Playground‑Text라는 텍스트 기반 시뮬레이션 환경에서 진행되었다. 환경은 물, 식물 씨앗, 작은 초식동물, 큰 초식동물 등 네 종류의 객체를 포함하고, 물을 씨앗에 부으면 식물이 성장하고, 성장한 식물을 작은 초식동물에게 주면 작은 초식동물이 성장하는 식의 규칙적인 “기술 트리”를 가진다. 저자들은 총 6가지 전이 유형(Standing, Holding1, Holding2, GrowPlant, GrowSmallHerbivore, GrowBigHerbivore)을 정의하고, 이를 기준으로 테스트 셋을 구성했다.
WorldLLM은 400번의 프레임워크 반복(T=400) 동안 매 반복마다 150개의 전이를 수집하고, 매 반복마다 5번의 메트로폴리스 스텝을 수행했다. 실험 결과, 호기심‑구동 RL 에이전트(RL‑ALPEXP)가 오라클 정책보다 더 효율적으로 전이 공간을 커버했으며, 특히 복합 전이(예: 큰 초식동물 성장)를 빠르게 발견했다. 가설 집합 H는 “물은 식물을 성장시킨다”, “성장한 식물은 작은 초식동물을 성장시킨다”, “두 개의 성장한 식물은 큰 초식동물을 성장시킨다”와 같은 인간이 직관적으로 이해할 수 있는 자연어 규칙으로 수렴했다. 이러한 가설을 Statistician에 삽입했을 때, 전체 전이 집합에 대한 로그우도와 테스트 셋에 대한 정확도가 크게 향상되었으며, 기존 LLM 단독 사용 대비 15~20% 정도의 퍼포먼스 상승을 기록했다.
핵심 인사이트는 (1) LLM의 인‑컨텍스트 학습 능력을 활용해 자연어 가설을 직접 모델에 주입함으로써 파라미터 업데이트 없이도 예측 능력을 크게 개선할 수 있다는 점, (2) 베이지안 메트로폴리스 탐색이 가설 공간을 효율적으로 탐색해 인간이 설계한 규칙과 유사한 이론을 자동 생성한다는 점, (3) 호기심‑구동 보상이 데이터 수집 효율성을 크게 높여 제한된 상호작용 예산(T) 내에서 충분히 풍부한 증거를 확보한다는 점이다. 또한, 이 프레임워크는 LLM 자체를 미세조정하지 않으면서도 “이론 기반 RL”과 “활동적 탐색”을 결합함으로써 비용 효율적인 세계 모델링을 가능하게 한다는 점에서 실용적 가치가 크다.
한계점으로는 (a) 가설이 자연어 형태에 국한돼 복잡한 수학적 모델이나 프로그래밍 언어 기반의 규칙을 표현하기 어려울 수 있다, (b) 메트로폴리스‑헤이스팅스의 수렴 속도가 가설 공간의 규모에 따라 급격히 느려질 위험이 있다, (c) 현재 실험은 비교적 단순한 텍스트 게임에만 적용됐으며, 고차원 시각·물리 시뮬레이션에 대한 확장 가능성은 아직 검증되지 않았다. 향후 연구에서는 (i) 다중 모달 LLM을 활용해 이미지·음성 기반 가설을 생성하고, (ii) 변분 베이지안 방법이나 MCMC 변형을 도입해 가설 탐색 효율성을 개선하며, (iii) 실제 로봇이나 복잡한 물리 엔진과 연계해 실시간 세계 모델링에 적용하는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기