컴펜디아: 온라인 기사 컬렉션을 활용한 자동 시각 스토리텔링 생성 시스템
초록
컴펜디아는 사용자의 질의에 따라 웹에서 관련 기사들을 자동으로 수집하고, LLM 기반의 정량적 사실 추출·검증·클러스터링 과정을 거쳐 주제별 데이터 팩트를 조직한다. 이후 스크롤텔링 인터페이스와 테마 오버뷰를 결합한 시각 스토리텔링으로, 사용자가 복잡한 주제를 한눈에 파악하고 세부 데이터를 탐색할 수 있게 한다. 정량적 평가와 16명의 참여자를 대상으로 한 두 차례 사용자 연구를 통해 정확도, 사용성, 스토리의 흥미로움을 입증하였다.
상세 분석
본 논문은 비구조화된 온라인 기사에서 정량적 정보를 자동으로 추출하고, 이를 시각적 스토리텔링으로 전환하는 엔드‑투‑엔드 파이프라인을 제시한다. 첫 번째 모듈은 (1) 온라인 기사 검색·스크래핑 단계에서 질의 확장을 통해 다양한 표현을 포함한 기사 풀을 확보하고, (2) LLM‑기반 프롬프트 엔지니어링을 활용해 문단 수준에서 정량적 사실(값, 단위, 시점, 컨텍스트)을 식별·추출한다. 여기서 핵심은 “값‑단위‑맥락”을 동시에 캡처함으로써 단위 불일치(예: 3.7K vs 3700)와 모호한 시간 표현을 정규화하는 것이다. 추출된 팩트는 신뢰도 검증을 위해 다중 기사 간 교차 검증과 신뢰 점수를 부여한다. 두 번째 단계인 팩트 조직에서는 의미적 임베딩(예: BERT‑ 기반)과 LLM‑주도 클러스터링을 결합해 주제별 군집을 형성하고, 유사 팩트를 병합·중복 제거한다. 이 과정에서 핵심 팩트와 보조 팩트를 구분하고, 단위·시점 차이를 해결하기 위한 정규화 로직이 적용된다. 시각 스토리텔링 모듈은 “overview‑first, details‑on‑demand” 원칙에 따라 테마 오버뷰(테마 서클)와 스크롤텔링 기반 스토리 뷰를 제공한다. 사용자는 오버뷰에서 관심 주제를 클릭하거나 스크롤을 통해 자연스럽게 상세 팩트와 차트(라인, 바, 파이 등)로 이동한다. 인터랙션 설계는 (R1‑R5) 요구사항을 충족하도록 설계됐으며, 각 팩트는 원본 기사와 인용 정보를 즉시 확인할 수 있게 한다. 정량적 평가에서는 정답 팩트와 비교해 92% 이상의 정확도와 0.87 이상의 클러스터링 F1 점수를 기록했으며, 사용자 연구에서는 작업 시간 단축, 인지 부하 감소, 스토리 이해도 향상을 입증했다. 특히, 기존 뉴스 애그리게이터와 달리 정량적 데이터와 시각적 내러티브를 자동으로 결합함으로써 사용자가 별도 데이터 전처리 없이도 통합된 인사이트를 얻을 수 있다. 한계점으로는 LLM 의 hallucination 위험, 최신 기사 업데이트 지연, 그리고 도메인‑특화 단위 변환에 대한 추가 규칙이 필요함을 언급한다. 향후 연구에서는 실시간 스트리밍 기사 처리, 다중 언어 지원, 그리고 사용자 피드백 기반의 팩트 재학습 메커니즘을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기