뉴스 데이터 예측을 위한 시계열 재귀 요약 그래프 ORACLE

뉴스 데이터 예측을 위한 시계열 재귀 요약 그래프 ORACLE
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ORACLE은 핀란드 대학을 위해 매일 수집되는 뉴스 데이터를 주간 단위의 계층적 요약 그래프(TRSG)로 변환한다. 해시 기반 버전 관리, 대학 맞춤형 관련도 필터링, 텍스트 임베딩, PESTEL 라벨링, 두 단계 클러스터링, LLM 기반 요약, 그리고 주간 변화 감지를 결합해 정책·기술·사회 변화에 대한 조기 경보와 의사결정 지원을 제공한다.

상세 분석

본 논문은 실시간 뉴스 스트림을 구조화된 지식 그래프로 전환하는 파이프라인을 상세히 제시한다. 첫 단계는 RSS 기반 크롤러와 HTML 정규화 후 해시를 이용한 버전 관리로, 동일 URL의 내용 변동을 정확히 추적한다. 이는 데이터 무결성과 감사 가능성을 확보하는 핵심 설계 선택이다. 두 번째 필터링 단계는 키워드 기반의 빠른 lexical 필터와 사전 정의된 예시 문서와의 임베딩 유사도 비교를 결합한 semantic 필터로 구성된다. 이중 필터링은 대학의 전략적 관심사에 부합하는 뉴스만을 선별하면서, 비관련 데이터는 차후 재활용을 위해 별도 저장한다는 점에서 효율성을 높인다.

임베딩은 OpenAI TextEmbedding‑3 모델을 사용하고, Milvus 벡터 데이터베이스에 메타데이터와 함께 저장한다. 여기에는 출처, 발행일, PESTEL 라벨, 버전 체인 등이 포함되어, 후속 분석 단계에서 필터링 및 집계가 용이하도록 설계되었다. PESTEL 라벨링은 단일 라벨 분류기로 구현했지만, 다중 라벨 확장이 가능하도록 구조화돼 있다.

TRSG(Time‑Dependent Recursive Summary Graph)의 핵심은 두 단계 클러스터링이다. L0→L1 단계에서는 주간 단위의 아이템 간 코사인 유사도 그래프를 구축하고 Leiden 알고리즘으로 커뮤니티를 탐지한다. 각 커뮤니티는 “사실 기반” 프롬프트를 통해 LLM(Gemini 2.0 Flash)에게 요약을 요청하고, 그 요약 텍스트를 다시 임베딩해 L1 노드로 만든다. L1→L2 단계에서는 L1 요약들을 메타클러스터링하고, 보다 추상적인 전략적 인사이트를 도출하는 L2 요약을 생성한다. 재귀적 요약 기법을 도입해 텍스트가 모델 컨텍스트 한도를 초과할 경우 균등하게 분할·요약 후 재요약함으로써 정보 손실을 최소화한다.

주간 변화 감지는 연속된 주의 L1·L2 요약 벡터를 코사인 유사도로 비교해 Stable(≥0.90), Changed(0.70‑0.90), Added(<0.70) 로 라벨링하고, 매칭되지 않은 이전 요약은 Removed 로 처리한다. 이렇게 구조화된 델타는 단순한 차이 보고서를 넘어, TF‑IDF 기반 라벨링과 군집화를 통해 인간이 이해하기 쉬운 테마 집합으로 변환된다. 각 테마는 PESTEL 관점에서 스키마‑제한 분석을 수행해 중요도(0‑1)와 구체적 권고안을 도출하고, MySQL에 캐시해 재현성을 보장한다.

시스템 운영 측면에서 저자는 해시 기반 버전 관리, 벡터 DB와 F‑AISS 혼합 사용, 스냅샷(pickle) 저장 등 안정성을 위한 구체적 구현 선택을 강조한다. 또한, “커버리지 편향”, “요약 환각”, “도메인 종속성”, “주간 granularity” 등 한계점을 솔직히 제시하고, 다중 라벨 PESTEL, 다언어 확장, 정책‑산업‑학계 연계 분석 등을 향후 연구 과제로 제시한다. 전체적으로, 데이터 수집‑전처리‑필터링‑임베딩‑클러스터링‑LLM 요약‑변화 감지‑PESTEL 분석이라는 일관된 파이프라인을 통해 실시간 뉴스 스트림을 의사결정 친화적인 지식 그래프로 전환하는 실용적이면서도 재현 가능한 설계를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기