협업 신념 세계: LLM 기반 다중 에이전트 효율 향상
초록
CoBel‑World는 대형 언어 모델(LLM) 에이전트에 물리적 환경과 협업자들의 정신 상태를 동시에 표현하는 ‘협업 신념 세계’를 도입한다. 심볼릭 신념 표현 모듈로 자연어 관찰을 구조화된 신념으로 변환하고, 제로샷 베이즈식 업데이트를 LLM 추론으로 수행한다. 이를 통해 에이전트는 충돌 가능성을 사전에 감지하고, 필요한 경우에만 적시·적절한 커뮤니케이션을 수행한다. TDW‑MAT와 C‑WAH 벤치마크에서 통신량을 64‑79% 절감하고 작업 효율을 4‑28% 향상시켰다.
상세 분석
본 논문은 실제 로봇 협업과 같이 부분 관측이 불가피한 환경에서 LLM 기반 에이전트가 겪는 ‘의도 추론 부재’ 문제를 신념 모델링으로 해결하고자 한다. 핵심 아이디어는 두 단계로 구성된다. 첫째, Symbolic Belief Representation 모듈은 PDDL‑유사한 형식으로 ‘엔터티‑속성‑프레디케이트’ 트리플을 정의하고, 0차(객관적 관측)와 1차(다른 에이전트가 가진 신념) 신념을 계층적으로 표현한다. 이를 위해 “BELIEVE” 연산자를 도입해 “Alice BELIEVE Bob BELIEVE apple IN bedroom”와 같은 고차 신념을 명시한다. 둘째, Bayesian Belief Collaboration 프로토콜은 전통적인 DEC‑POMDP의 베이즈 필터를 LLM 추론에 매핑한다. 업데이트 단계에서는 시각적 관측 (o_v)와 통신 메시지 (o_c)를 입력으로 LLM에게 “update_zero”와 “update_first” 프롬프트를 제공해 각각 0차와 1차 신념을 갱신한다. 여기서 Theory‑of‑Mind 프롬프트를 사용해 협업자의 관점에서 메시지를 해석하도록 함으로써 개인‑공용 정보 혼동을 방지한다. 예측 단계에서는 현재 신념 (b₀ₜ)와 목표 (G), 진행 상황 (P)를 기반으로 “reason” 프롬프트를 통해 미래 0차 신념을 추론하고, 이어 “plan” 프롬프트로 최적 행동 (πₜ₊₁)을 생성한다.
기술적 기여는 다음과 같다. (1) 고차 신념을 구조화하는 심볼릭 언어 설계와, 다중 에이전트가 공동으로 신념 규칙을 제안·검토하는 협업 초기화 메커니즘; (2) LLM을 베이즈 필터의 업데이트·예측 연산에 직접 활용함으로써 별도 파인튜닝 없이 제로샷으로 신념을 유지·전파하는 방법; (3) 신념 기반 의도 충돌 탐지와 적응형 커뮤니케이션 스케줄링을 통해 불필요한 대화 라운드를 크게 감소시킨 점. 실험에서는 TDW‑MAT(가상 가구 배치)와 C‑WAH(복합 물체 조작) 두 가지 고난이도 임베디드 환경에서 기존 프레임워크(CoELA, CaPo, RoCo 등)와 비교했을 때, 평균 통신 라운드가 64‑79% 감소하고, 성공률·시간 효율이 4‑28% 향상되었다. 특히, 충돌 플래닝(예: 두 에이전트가 동일 물체를 동시에 잡으려는 상황)을 사전에 감지하고, “내가 먼저 가겠다”는 간단한 의도 교환만으로 문제를 해결한 사례가 눈에 띈다.
한계점으로는 (a) 신념 언어가 현재는 1‑2 차 수준에 머물러 복잡한 다중 단계 의도(예: “Bob이 Alice가 나중에 할 일을 예상한다”)를 완전히 표현하지 못한다; (b) LLM 추론 비용이 높은 편이며, 실시간 로봇 제어에 적용하려면 경량화가 필요하다; (c) 베이즈 업데이트가 완전한 확률 모델이 아니라 LLM의 텍스트 기반 추론에 의존하므로, 불확실성 정량화가 제한적이다. 향후 연구에서는 고차 메타‑신념(Meta‑belief) 확장, 라이트웨이트 LLM 파생 모델 적용, 그리고 베이즈 신념과 확률 그래프를 결합한 하이브리드 프레임워크가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기