아카데믹 인용 자동 생성기 Citegeist
초록
Citegeist는 arXiv 전체 논문을 대상으로 동적 Retrieval‑Augmented Generation(RAG) 파이프라인을 구축해, 논문의 초록이나 전체 텍스트를 입력으로 관련 연구(related work) 섹션을 자동으로 생성한다. 임베딩 기반 유사도 검색, 다단계 필터링, 페이지‑단위 요약, 그리고 사용자 정의 하이퍼파라미터(폭, 깊이, 다양성)를 결합해 정확한 인용과 높은 문체 품질을 제공한다.
상세 분석
본 논문은 대규모 과학 문헌인 arXiv(약 260만 편)와 최신 대형 언어 모델(LLM)을 연결하는 실용적 시스템을 제안한다. 핵심 기술은 세 단계로 나뉜다. 첫째, 모든 논문의 초록을 all‑mpnet‑base‑v2 Sentence‑Transformer로 임베딩하고, Milvus 벡터 데이터베이스에 저장한다. 여기에는 SHA‑256 해시와 BERTopic 기반 토픽 라벨을 함께 보관해, 이후 증분 업데이트 시 중복 연산을 최소화한다. 둘째, 사용자가 제공한 초록(또는 전체 논문)과의 코사인 유사도를 기반으로 후보 논문을 선정한다. 이때 ‘폭(breadth)’은 초기 후보 수, ‘깊이(depth)’는 각 후보 논문에서 선택할 페이지 수, ‘다양성(diversity)’은 유사도와 상호 차이를 가중합한 w 파라미터로 조절한다. 수식 (1)에서 w가 0이면 순수 유사도 기반, 1이면 다양성 중심 선택이 된다. 셋째, 선택된 후보 논문의 핵심 페이지를 GPT‑4o 로 요약하고, 요약문들을 하나의 프롬프트에 통합해 최종 관련 연구 섹션을 생성한다. 인용은 arXiv API 로 메타데이터를 추출해 자동 삽입한다.
업데이트 메커니즘은 해시 테이블을 이용해 기존 레코드와 신규 레코드를 비교하고, 변동이 있는 경우에만 임베딩을 재계산한다. 배치 처리와 GPU 가속을 결합해 전체 데이터베이스를 2주에 한 번, 약 4시간 내에 동기화한다.
평가에서는 인간 라벨링이 어려워 LLM‑as‑judge 방식을 채택했으며, GPT‑4o, Gemini 1.5‑Pro, Mistral‑Large 세 모델을 활용해 ‘소스 관련성’과 ‘작성 품질’ 두 축을 0‑10 점으로 측정했다. 11개의 신규 논문(컴퓨터 과학·경제·정보·물리·수학)에 대해, 기본 GPT‑4o 프롬프트 대비 Citegeist는 평균 관련성 점수 6.90→8.27, 품질 점수 6.82→8.64로 크게 우위에 있었다. 다양성 파라미터를 0.3으로 높이면 관련성은 약간 감소하지만 품질은 소폭 상승하는 트레이드오프가 관찰되었다. 깊이를 2→6으로 늘려도 품질 변화는 미미했으며, 페이지 수가 많아질수록 요약 단계에서 핵심을 놓치는 경향이 드러났다.
제한점으로는 업데이트 시 GPU 없이 4시간 이상 소요되는 점과, 전체 텍스트를 직접 모델 컨텍스트에 넣을 경우 토큰 한계에 부딪히는 문제가 있다. 향후에는 더 효율적인 병렬 처리와, 페이지‑레벨 중요도 예측 모델을 도입해 요약 효율을 높일 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기