과학계 메트릭 질문을 위한 AnalyticsGPT 워크플로우
초록
AnalyticsGPT는 학술 실체 인식·계획·도구 호출·작성·시각화의 5단계 모듈로 구성된 LLM 기반 과학계 메트릭 질문 응답 시스템이다. 전용 연구 성과 플랫폼을 RAG 데이터베이스로 활용하고, 고수준·세부계획 모듈을 통해 복합 질의의 엔터티 해석·쿼리 파라미터 생성을 자동화한다. 인간 전문가와 LLM‑판단자를 통한 평가에서 기존 RAG 베이스라인보다 견고성·내용 포괄성·주장 타당성이 우수함을 입증한다.
상세 분석
본 논문은 “과학의 과학”(science of science)이라 불리는 메타‑과학 영역에서, 학술 실체(저자, 기관, 저널 등)와 정량 지표(인용수, 임팩트 팩터 등)를 결합한 질문에 대한 자동 응답을 목표로 한다. 기존 논문 기반 QA와 달리, 질문 자체가 복합적인 엔터티 식별과 다중 필터링·집계 요구를 내포하고 있어, 단순 LLM 생성만으로는 최신·정확한 데이터를 보장하기 어렵다. 이를 해결하기 위해 저자들은 다음과 같은 핵심 설계를 제시한다.
-
모듈형 파이프라인: 고수준 계획(High‑Level Planning Module, HLPM) → 세부 계획(Detailed Planning Module, DPM) → 실행(Action Module, AM) → 작성(Writing Module, WM) → 시각화(Visualization Module, VM) 순서로 진행한다. 각 단계는 명확한 입력·출력을 정의해 오류 전파를 최소화한다.
-
엔터티 인식 및 ID 매핑: HLPM에서 LLM을 이용해 질문 내 학술 실체를 NER하고, 전용 GraphQL 레이어를 통해 이름을 고유 ID로 변환한다. 이는 이후 API 호출 시 정확한 필터링을 가능하게 한다.
-
세부 계획 자동 생성: DPM은 하나의 LLM 호출로 “도구·서브태스크·의존관계·파라미터”를 포함한 구체적인 실행 계획을 만든다. 여기서 도구는 ‘엔터티 이름→ID 변환’, ‘논문 검색’, ‘페이싯 논문 집계’ 두 종류만 노출해 파라미터 스펙을 제한한다. 파라미터 오류를 방지하기 위해 규칙 기반 쿼리 조립 로직을 도입했다.
-
동시 실행 및 의존성 처리: AM은 독립 단계는 병렬 실행해 시간 효율을 높이고, 의존 단계는 이전 결과를 LLM이 해석해 필요한 파라미터를 보완한다. 이는 ‘union’ 형태 질문에서 특히 효과적이다.
-
사실 기반 작성: WM은 LLM에게 “데이터 갭을 내부 지식으로 메우지 말고, 인라인 참조와 마크다운 표·목록을 사용하라”는 프롬프트를 제공해, 검증 가능한 응답을 생성한다.
-
시각화 보조: VM은 최종 텍스트를 검토 후, 필요 시 플롯 코드를 생성·실행해 이미지로 반환한다. 코드 오류는 LLM에게 피드백 루프를 제공해 자동 수정한다.
평가에서는 인간 전문가 2명과 다중 LLM ‘배심원’이 5점 척도 루브릭으로 채점했으며, 제안된 시스템이 베이스라인 RAG 파이프라인보다 전반적인 견고성·내용 포괄성·주장 타당성에서 우수함을 확인했다. 특히, 계획 단계가 없는 베이스라인은 복합 질의에서 파라미터 누락·쿼리 오류가 빈번했으며, 이는 본 시스템의 계획·규칙 기반 쿼리 조립이 실질적인 성능 향상을 가져옴을 시사한다. 논문은 또한 LLM‑as‑judge 방식이 인간 평가와 높은 상관관계를 보임을 입증해, 향후 대규모 평가에 활용 가능성을 제시한다. 전체적으로, 과학계 메트릭 질의라는 특수 도메인에 맞춘 LLM‑에이전트 설계와 체계적인 평가가 학술 데이터 서비스에 새로운 자동화 패러다임을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기