문서 수준 지식 그래프 구축을 위한 합성 데이터와 모델 증류 기반 스케일링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SynthKG 파이프라인으로 고품질 문서‑KG 쌍을 자동 생성하고, 이를 작은 LLM에 fine‑tuning하여 단일 호출로 문서‑KG를 생성하는 Distill‑SynthKG를 제안한다. 기존 QA 데이터셋을 활용한 평가 지표와 그래프 기반 RAG 검색 프레임워크를 도입해, 대형 모델 대비 8배 작은 모델에서도 KG 품질·검색·QA 성능을 크게 향상시킨다.

상세 분석

본 논문은 문서‑레벨 지식 그래프(KG) 구축의 근본적인 확장성 문제를 데이터 부족에 기인한 학습 한계로 재정의한다. 기존 연구들은 GPT‑4o와 같은 거대 LLM을 직접 프롬프트해 KG를 추출하지만, 비용이 비싸고 긴 문서에서 정보 손실이 빈번하다. 저자들은 이를 해결하기 위해 두 단계의 합성 파이프라인인 SynthKG를 설계한다. 첫 단계에서는 문서를 의미적으로 완전한 청크로 나눈 뒤, 이전 청크의 컨텍스트를 이용해 엔티티를 정규화·재작성하는 ‘decontextualization’ 과정을 거친다. 이는 청크 간 엔티티 일관성을 확보하고, 각 청크를 독립적으로 처리할 수 있게 만든다. 두 번째 단계에서는 각 청크에 대해 LLM에게 엔티티·관계·‘proposition’(관계 설명 문장)을 추출하도록 프롬프트한다. 여기서 proposition은 삼중항(triple) 위에 추가된 자연어 설명으로, 모델이 관계를 추론할 때 중간 사고 과정을 제공한다. 이러한 구조화된 출력은 일관된 패턴을 형성하므로, 이후 작은 LLM이 학습하기에 적합한 고품질 레이블이 된다.

SynthKG가 생성한 수십만 개의 문서‑KG 쌍을 이용해, 저자들은 ‘Distill‑SynthKG’라는 단일 단계 모델을 fine‑tuning한다. 이 모델은 전체 문서를 한 번에 입력받아 바로 KG를 출력한다. 실험 결과, Distill‑SynthKG는 동일 크기의 기존 베이스라인보다 현저히 높은 정확도와 커버리지를 보였으며, 파라미터가 8배 작은 대형 LLM(GPT‑4o 등)과 비교해도 KG 품질에서 뒤처지지 않는다.

평가 측면에서는 기존 멀티홉 QA 데이터셋(MuSiQue, 2WikiMultiHopQA, HotpotQA)을 재활용해 ‘proxy triplet’ 라벨을 자동 생성하고, 의미 유사도와 키워드 매칭 기반의 새로운 메트릭을 제안한다. 이 메트릭은 KG의 트리플 커버리지를 정량화하고, 실제 QA·검색 성능과 높은 상관관계를 보인다.

마지막으로, 생성된 KG를 활용한 그래프 기반 검색 프레임워크를 설계했다. 초기 질의에 대해 관련 proposition을 먼저 검색하고, 그래프 탐색을 통해 연관 트리플·청크를 점진적으로 확장한다. 이 방식은 기존 텍스트 기반 검색이나 단순 KG‑retrieval 방법보다 높은 재현율·정밀도를 달성한다. 전체적으로, 데이터 중심의 합성·증류 전략이 모델 규모에 의존하지 않고도 고품질 문서‑KG 구축을 가능하게 함을 입증한다.

문서 수준 지식 그래프 구축을 위한 합성 데이터와 모델 증류 기반 스케일링

초록

상세 분석

댓글 및 학술 토론

의견 남기기