분산형 멀티에이전트 로그 기반 추론 프레임워크

분산형 멀티에이전트 로그 기반 추론 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DeALOG는 표, 텍스트, 이미지 등 다양한 모달리티의 정보를 활용해 복합 질문에 답하는 시스템이다. 각각의 전문 에이전트(표, 컨텍스트, 비주얼, 요약, 검증)가 자연어 로그를 공유 메모리로 사용해 서로의 결과를 읽고 추가함으로써 중앙 플래너 없이도 협업적 오류 탐지와 검증을 수행한다. 실험 결과 FinQA, TAT‑QA, CRT‑QA, WikiTableQuestions, FeTaQA, MultiModalQA 등 6개 벤치마크에서 경쟁력 있는 정확도를 달성했으며, 로그 공유와 검증 에이전트가 성능 향상에 핵심적인 역할을 함을 확인하였다.

상세 분석

DeALOG는 기존의 두 가지 설계 패러다임—단일 LLM이 체인‑오브‑생각(Chain‑of‑Thought) 방식으로 내부 상태를 유지하는 방식과, 플래너‑기반 파이프라인이 외부 도구와 명시적 계획을 통해 단계별 실행을 제어하는 방식—의 한계를 보완한다. 중앙 플래너가 없고 에이전트들이 로그를 통해 비동기적으로 협업함으로써, 초기 단계에서 발생한 오류가 전체 흐름에 전파되는 위험을 크게 감소시킨다. 로그는 (Agent, Type, Content, meta) 형태의 튜플로 구성되며, 각 에이전트는 “should_act”라는 휴리스틱을 통해 언제 로그에 기여할지를 스스로 판단한다.

표 전용 TableAgent는 테이블 구조를 파싱해 셀‑레벨 사실을 LOOKUP 타입으로 기록하고, ContextAgent는 텍스트 문서를 검색해 QUOTE 타입으로 핵심 문장을 저장한다. VisualAgent는 이미지에서 OCR 및 캡션을 추출해 VISUAL 타입으로 변환한다. 이러한 다중 모달리티의 증거가 로그에 누적되면, SummarizingAgent가 전체 로그를 검토해 현재까지의 진행 상황을 요약(SUMMARY)하고, 최종 답변(ANSWER)을 생성한다. 생성된 ANSWER는 VerificationAgent에 의해 검증되며, 일치하지 않을 경우 FLAG를 반환해 해당 오류가 발생한 증거를 재요청한다. 이 과정은 “second‑chance” 메커니즘으로, 수치 연산 오류나 누락된 증거를 자동으로 교정한다.

DeALOG의 스케줄러는 라운드 기반으로 작동한다. 각 라운드에서 Table, Context, Visual 에이전트에게 차례대로 로그를 읽고 필요 시 추가하도록 허용하고, 새로운 증거가 등장하거나 일정 횟수(패시언스) 이상 진행되지 않으면 Summarizer가 호출된다. 로그가 일정 길이를 초과하면 오래된 항목을 SUMMARY 스텁으로 압축해 토큰 제한을 관리한다. 또한, 로그‑기반 특징(이미지 존재 여부, 요약 신뢰도, 신규 로그 항목 수 등)을 입력으로 하는 로지스틱 회귀 기반 게이팅 정책을 도입해 라운드 종료 여부를 판단함으로써 불필요한 LLM 호출을 최소화한다.

실험에서는 LLaMA‑3 8B, Mistral 7B, Qwen‑3 8B 등 동일한 백본 모델을 사용해 공정성을 확보하였다. 모든 데이터셋에 대해 동일한 BM25+MiniLM 검색기를 적용해 입력을 필터링했으며, 각 질문당 평균 46번의 에이전트 호출을 기록했다. 결과적으로 DeALOG는 FeTaQA와 FinQA에서 80% 이상의 정확도를 달성했으며, 특히 수치 연산이 많은 FinQA에서 외부 계산기 없이 순수 LLM만으로도 기존 프로그램‑오브‑생각(Program‑of‑Thought) 방식에 근접하거나 능가하는 성능을 보였다. 또한, 로그 공유와 검증 에이전트를 제거한 Ablation 실험에서 정확도가 510%p 감소함을 통해 이 두 요소가 시스템 견고성에 결정적임을 입증하였다.

DeALOG의 한계도 명시된다. 이미지‑중심 질문이 많은 MMQA에서는 시각 정보 추출 정확도에 의존하기 때문에 OCR·캡션 품질에 따라 성능 변동이 크다. 또한, 현재 구현은 API 제약으로 인해 에이전트 간 순차 실행을 사용하고 있어 진정한 병렬성을 확보하려면 스레드‑안전 로그 구조와 비동기 호출이 필요하다. 마지막으로, 로그가 자연어 형태이기 때문에 자동 파싱·정규화 단계에서 노이즈가 발생할 가능성이 존재한다. 향후 연구에서는 구조화된 트리/그래프 로그와 외부 도구(계산기, 데이터베이스)와의 연동을 확대해 복잡한 수학·논리 연산을 보다 안정적으로 처리하는 방향을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기