오픈 웹 데이터를 즉시 활용 가능한 데이터베이스로 전환하는 SODIUM
초록
SODIUM은 연구자가 웹에 흩어져 있는 데이터를 탐색·추출·정제하여 지정된 스키마의 관계형 테이블로 자동 구축하는 과제를 정의한다. 이를 평가하기 위해 6개 분야의 105개 실제 연구 과제를 모은 SODIUM‑Bench를 제시하고, 기존 6개 AI 에이전트가 46.5% 이하의 정확도에 머무는 한계를 확인한다. 저자들은 ATP‑BFS 기반 탐색과 캐시 관리가 결합된 다중 에이전트 시스템 SODIUM‑Agent를 설계해 91.1% 정확도를 달성, 기존 최고 성능 대비 2배 이상, 최저 대비 73배 이상의 향상을 보인다.
상세 분석
본 논문은 “SODIUM”이라는 새로운 문제 정의를 통해, 연구자가 웹에서 데이터를 수집해 분석용 데이터베이스를 구축하는 전 과정을 자동화하려는 시도를 체계화한다. 핵심 요구사항은 (C0) 깊이 있는 도메인‑특화 탐색, (E1) 셀 간 구조적 상관관계 활용, (E2) 일관된 테이블 형태로의 통합이다. 이를 검증하기 위해 48편의 논문에서 도출한 105개의 질의·스키마 쌍을 포함하는 SODIUM‑Bench를 구축했으며, 각 과제는 다중 페이지·다중 연도·다중 지표 등 복합적인 네비게이션을 필요로 한다. 기존 웹 검색 엔진, LLM‑기반 RAG, 표 자동 채우기 시스템 등 6개의 최신 에이전트를 실험했지만, 이들은 C0‑E2 중 어느 하나도 충분히 구현하지 못해 평균 정확도가 46.5%에 불과했다.
SODIUM‑Agent는 두 모듈로 구성된다. 첫 번째인 웹 탐색기에서는 ATP‑BFS(Adaptive Tree‑Pruned Breadth‑First Search) 알고리즘을 도입해, 초기 질의와 스키마 정보를 바탕으로 탐색 트리를 동적으로 확장·가지치기한다. 이 과정에서 페이지 레이아웃·링크 구조·키워드 매칭을 복합적으로 평가해 탐색 깊이를 조절함으로써, 전통적인 BFS가 초래하는 폭발적 탐색 비용을 억제한다. 두 번째인 캐시 매니저는 이미 방문한 페이지와 추출된 메타데이터를 저장하고, 셀 간 구조적 의존성(E1)을 이용해 재탐색을 최소화한다. 예를 들어, 동일한 연도·국가에 대한 다른 속성을 조회할 때는 기존 경로를 재활용해 탐색 비용을 30% 이상 절감한다.
실험 결과, SODIUM‑Agent는 전체 과제에서 91.1%의 셀 정확도를 기록했으며, 특히 E2(데이터 일관성) 측면에서 16.6배 향상을 보였다. 오류 분석에서는 여전히 복잡한 동적 페이지·자바스크립트 렌더링이 미비한 경우와, 스키마와 실제 웹 구조 간 불일치가 원인으로 작용함을 확인했다. 논문은 또한 SODIUM‑Bench가 현재 공개된 표 자동 채우기·오픈 도메인 검색 벤치마크와 차별화되는 점을 강조하며, 향후 동적 웹·API 기반 데이터 수집, 멀티모달 LLM 통합 등 확장 가능성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기