마인크래프트를 위한 비용 효율적 멀티모달 지식그래프 기반 에이전트 VistaWise
초록
VistaWise는 수백 장의 라벨링만으로 객체 탐지 모델을 파인튜닝하고, 온라인 텍스트를 활용한 경량 지식그래프(KG)를 구축해 시각·텍스트 정보를 교차 결합한다. 검색 기반 풀링과 데스크톱 수준의 마우스·키보드 스킬 라이브러리를 통해 LLM이 직접 행동을 생성·실행하도록 설계했으며, 기존 API 의존 방식보다 개발 비용을 크게 절감하면서 다이아몬드 채취 성공률 33% 등 SOTA 성능을 달성한다.
상세 분석
본 논문은 “LLM + 시각 인식” 패러다임의 두 가지 근본적 한계를 동시에 해결한다. 첫째, 기존 멀티모달 LLM은 대규모 도메인 데이터에 대한 파인튜닝이 필요해 비용이 천문학적이었다. VistaWise는 객체 탐지 모델만을 도메인 특화 데이터(≈500 프레임)로 파인튜닝함으로써 시각 노이즈를 크게 억제한다. 이 모델은 환경 엔티티와 인벤토리 아이템을 실시간으로 바운딩 박스와 좌표 형태로 추출하고, 이를 KG의 정적 노드에 동적 속성으로 삽입한다. 둘째, LLM 자체의 환각을 방지하기 위해 외부 텍스트 지식을 경량 KG 형태로 구조화한다. 엔티티 이름만을 노드로 사용하고 관계(‘includes’, ‘can be used to mine’ 등)만을 간결히 정의함으로써 프롬프트 길이를 최소화하고 검색 비용을 낮춘다.
교차 모달 그래프는 정적 텍스트 KG와 실시간 시각 속성을 결합한 ‘vision‑text KG’를 형성한다. 이때 검색 기반 풀링(retrieval‑based pooling) 기법을 적용해 현재 작업 프롬프트와 시각 속성에 가장 관련성이 높은 서브그래프만을 LLM에게 전달한다. 이렇게 하면 LLM이 불필요한 토큰을 처리하지 않아 추론 속도가 향상되고, 과도한 정보가 초래하는 환각 위험도 감소한다.
행동 실행 측면에서는 Mineflayer와 같은 API 대신 PyAutoGUI 기반의 데스크톱 스킬 라이브러리를 구축했다. LLM은 작업 설명, CoT(Chain‑of‑Thought) reasoning, 메모리 스택을 활용해 행동 파라미터(예: 클릭 좌표, 키 입력)를 자동 생성하고, 실제 마우스·키보드 입력으로 Minecraft 클라이언트를 조작한다. 이는 인간 플레이어와 동일한 저수준 인터페이스를 사용함으로써 환경 일반화 능력을 크게 높인다.
실험에서는 MineDojo, VPT, STEVE‑1 등 기존 비‑API 기반 베이스라인과 비교해 다이아몬드 채취, 목재 수집, 구조물 건설 등 5개 복합 과제에서 평균 성공률을 10‑15%p 상승시켰다. 특히 데이터 효율성 측면에서 “수백 장 vs 수백만 장”이라는 차이는 개발 비용을 99% 이상 절감한다는 의미다. Ablation 연구에서는 (1) 객체 탐지 파인튜닝 없이 일반 탐지기를 사용할 경우 성공률이 20%p 이하로 급락, (2) KG 없이 순수 LLM 프롬프트만 사용할 경우 환각으로 인한 오류가 30% 이상 증가함을 확인했다.
한계점으로는 현재 KG가 정적 텍스트와 간단한 관계만을 포함하고 있어 복합적인 퀘스트 로직(예: 시간‑조건 트리거) 표현에 제약이 있다. 또한 객체 탐지 모델이 새로운 블록이나 아이템을 만나면 재학습이 필요하므로 완전한 제로‑샷 확장은 아직 미흡하다. 향후 연구에서는 자동 KG 확장(웹 크롤링 + LLM 정제)과 지속적 학습 기반 탐지 모델을 결합해 완전한 오픈‑월드 적응성을 목표로 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기