과학 실험을 위한 지식그래프 기반 내적 독백 플래닝 에이전트 DAVIS

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DAVIS는 텍스트 기반 실험 환경에서 구조화·시간적 기억을 활용해 다단계 추론을 수행하는 RAG(검색‑증강 생성) 에이전트이다. 에이전트는 세계 모델을 시간 지식 그래프(TKG)로 구현하고, “내적 독백”이라 부르는 다회전 검색·대화 과정을 통해 과거 경험을 재구성·보완한다. 이를 바탕으로 actor‑critic 구조에서 실시간으로 계획을 수정하고, 안전 제약을 검증한다. ScienceWorld 9개 과목 중 8개에서 기존 최첨단 모델을 앞섰으며, HotpotQA·MusiqueQA에서도 경쟁력 있는 멀티홉 QA 성능을 보였다.

상세 분석

DAVIS는 기존 RAG 기반 에이전트가 겪는 “정적·비구조적 메모리” 한계를 극복하기 위해 두 가지 핵심 설계를 도입한다. 첫째, 세계 모델(World Model, WM)을 시간 지식 그래프(Temporal Knowledge Graph, TKG)로 구현한다. 텍스트 기반 환경에서 발생하는 상태 전이(관찰‑행동‑관찰)를 LLM 프롬프트와 Stanford CoreNLP 코어퍼런스 해결기로 파싱해 (주체, 관계, 객체, 타임스탬프) 형태의 트리플로 저장한다. 이렇게 축적된 TKG는 시간적 연속성을 보존하므로, 에이전트는 “이전 행동이 현재 상태에 미친 인과관계”를 그래프 탐색을 통해 직접 확인할 수 있다. 이는 특히 실험실 시뮬레이션처럼 지연 효과와 복합적 상호작용이 중요한 도메인에서 필수적인 구조이다.

둘째, DAVIS는 “내적 독백(inner monologue)”이라 명명한 다회전 검색‑대화 메커니즘을 도입한다. 에이전트는 현재 belief state ˆbₜ를 LLM으로 요약하고, WM에 질의‑응답을 반복한다. 각 라운드에서 얻은 서브그래프는 다시 belief state와 정책 π에 피드백되어, 정책이 “지식 격차를 메우는” 방향으로 점진적으로 개선된다. 이 과정은 전통적인 단일 패스 검색과 달리, 에이전트가 스스로 질문을 재구성하고, 부족한 정보를 보완하며, 필요 시 과거 경험을 재조합한다는 점에서 인간의 사고 과정과 유사하다.

알고리즘적으로는 POMDP 프레임을 채택해 belief state와 정책을 순차적으로 업데이트한다. Actor는 WM‑기반 계획을 구체적인 행동 시퀀스로 변환하고, Critic은 실행 중 관찰(oₜ₊₁)과 WM이 예측한 전이 ˆT를 비교해 안전 제약 위반 여부를 실시간 감시한다. 위반 시 감독자에게 알림을 보내는 옵션도 제공한다.

실험에서는 ScienceWorld라는 텍스트 기반 과학 실험 시뮬레이터를 사용해 9개 초등 과학 주제(예: 물리, 화학, 생물)에서 평가했다. DAVIS는 기존 SwiftSage, ReAct, Reflexion, RAP 등 4개 베이스라인 대비 8개 과목에서 평균 정확도가 7~12%p 상승했다. 또한 멀티홉 QA 벤치마크인 HotpotQA와 MusiqueQA에서도 TKG 기반 그래프 QA와 LLM의 결합이 기존 벡터 검색 기반 RAG보다 높은 정확도와 설명 가능성을 제공함을 확인했다.

한계점으로는 TKG 구축에 LLM 프롬프트와 코어퍼런스 해석에 의존함으로써 오류 전파 위험이 존재한다는 점, 그리고 현재 구현이 텍스트 환경에 특화돼 실제 물리 로봇이나 시뮬레이션 엔진과의 연동이 미비하다는 점을 들 수 있다. 향후 연구에서는 자동화된 트리플 추출 정확도 향상, 대규모 멀티모달 지식 그래프와의 통합, 그리고 실시간 안전 검증을 위한 형식적 방법론 도입이 기대된다.

과학 실험을 위한 지식그래프 기반 내적 독백 플래닝 에이전트 DAVIS

초록

상세 분석

댓글 및 학술 토론

의견 남기기