도구 통합 추론을 활용한 투명한 차트 이해 프레임워크, ChartAgent
초록
최신 멀티모달 대형 언어 모델(MLLM)은 차트 이해에 진전을 보였으나, 명시적 텍스트 주석에 과도하게 의존하고 숫자 정보가 부족할 경우 성능이 급격히 저하되는 한계가 있습니다. 본 연구는 이러한 문제를 해결하기 위해 인간의 인지 과정에서 영감을 받은 도구 통합 추론(TIR) 기반의 차트 이해 프레임워크인 ChartAgent를 제안합니다. ChartAgent는 복잡한 차트 분석 작업을 관찰 가능하고 재생 가능한 단계로 분해하며, 키 요소 감지, OCR, 수치 계산 등 10여 개의 모듈식 도구를 동적으로 조율하여 체계적인 시각적 파싱을 수행합니다. 모든 중간 출력은 구조화된 ‘증거 패키지’로 표준화되어 최종 결론에 대한 추적 가능하고 재현 가능한 근거를 제공함으로써 블랙박스 패러다임을 넘어서는 투명성과 신뢰성을 달성합니다.
상세 분석
ChartAgent의 핵심 기술적 혁신은 도구 통합 추론(TIR)을 통해 차트 이해의 ‘인지적 디커플링’을 구현한 데 있습니다. 기존 MLLM이 원시 픽셀에서 텍스트 답변으로의 엔드투엔드 매핑에 의존하는 반면, ChartAgent는 작업을 인간 분석가의 단계적 접근 방식(축 식별 → 눈금 읽기 → 데이터 마커 위치 확인 → 시각적 측정 → 통합 계산)과 유사하게 ‘생각-관찰-실행-반성’의 제어 가능한 루프로 분해합니다.
이를 지원하는 확장 가능한 모듈식 도구 라이브러리는 크게 두 계층으로 구성됩니다. 첫째, 저수준 시각 인지 도구로 YOLO 기반의 키 요소(축, 범례 등) 감지 도구, SAM 기반의 인스턴스 분할 도구, OCR 도구, 보조선 자동绘制 도구(AuxLineDrawerTool) 등이 포함되어 기하학적 측정 및 정확한 축-눈금 매핑을 위한 견고한 감각 기반을 마련합니다. 둘째, 고수준 추론/통합 도구로 수치 계산, 관계적 추론(트렌드 분석, 구간 비교), 데이터 구조화(테이블/JSON 변환) 도구 등이 포함되어 추출된 정보를 종합하고 분석합니다.
ChartAgent의 동적 도구 조율 메커니즘은 비용-정보 획득 트레이드오프를 기반으로 최적의 도구 시퀀스를 선택합니다. 각 도구는 통일된 인터페이스 스키마를 따르며, 각 단계의 출력은 ‘증거 패키지’에 체계적으로 기록됩니다. 이 패키지는 모든 중간 시각화(분할 결과, 보조선 등)와 수치적 추정치를 포함하여 결정 경로의 완전한 투명성과 사후 검증을 가능하게 합니다. 최종 결정 단계에서는 GroupTalk 기반의 다중 전문가 협업 메커니즘을 통해 여러 도구의 출력에 대한 합의 투표 및 신뢰도 융합을 수행하여 정확한 최종 답변을 생성합니다.
이러한 설계는 텍스트 주석이 희소한 실제 시나리오에서 MLLM의 취약점을 해결하며, 과학 및 금융과 같은 정밀도가 중요한 분야에의 확장 가능한 배포를 위한 실용적인 경로를 제시합니다. 실험 결과, ChartAgent는 ChartQA 및 ChartBench 데이터셋의 NumberQA, Value Compare, 차트-테이블 변환 작업에서 최첨단 성능을 달성하면서도 해석의 추적 가능성을 제공했습니다.
댓글 및 학술 토론
Loading comments...
의견 남기기