다중소스 RAG를 통한 중국 티베트 의학 질의응답의 추적 가능성 향상

다중소스 RAG를 통한 중국 티베트 의학 질의응답의 추적 가능성 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 백과사전, 고전, 임상 논문 등 이질적인 세 개의 지식베이스(KB)를 활용해 중국 티베트 의학 질문에 답변하는 Retrieval‑Augmented Generation(RAG) 시스템을 제안한다. 밀집된 백과사전 문서가 검색 편향을 일으키는 문제를 해결하기 위해 DAKS 라는 KB 라우팅·예산 할당 기법을 도입하고, 정렬 그래프 기반 증거 융합·토큰 예산 하의 커버리지 제약 패킹을 통해 교차‑KB 증거 커버리지를 높인다. 경량 생성 모델 openPangu‑Embedded‑7B를 사용해 실험했으며, CrossEv@5 등 추적성 지표에서 기존 베이스라인보다 일관된 개선을 보였다.

상세 분석

이 연구는 전통 의학 분야, 특히 중국 티베트 의학처럼 지식이 백과사전, 고전(전통 문헌), 임상 논문 등 서로 다른 형식과 권위 수준을 가진 여러 데이터베이스에 분산되어 있는 상황을 실용적으로 모델링한다. 기존 RAG 연구는 대부분 단일 코퍼스를 인덱싱하거나 모든 소스를 하나의 평탄한 텍스트 집합으로 병합하는데 그쳤으며, 소스 간의 이질성이나 권위 차이를 고려하지 못했다. 이러한 한계는 “밀집 소스 편향(density‑driven bias)”이라는 현상으로 나타난다. 백과사전 문서는 짧고 핵심 정보를 많이 담고 있어 검색 점수가 높게 나오지만, 실제 임상·학술적 근거가 필요한 질문에서는 고전이나 임상 논문이 더 신뢰할 만한 근거가 된다.

논문은 두 가지 핵심 모듈로 이 문제를 해결한다. 첫 번째는 DAKS(Dynamic Authority‑aware Knowledge‑source Selection) 라우팅이다. 각 KB에 대해 작은 규모의 프로브 검색을 수행해 상위 L개의 점수 분포를 수집하고, 최고 점수, 평균 상위 M점수, 점수 마진, 엔트로피(집중도), 커버리지(문서 다양성) 등 5가지 특징을 벡터화한다. 이를 선형 가중치와 사전 정의된 권위 프라어(예: 임상·고전 > 백과)와 결합해 KB‑별 스코어 S_k를 산출한다. Softmax를 통해 각 KB에 할당될 예산 비율 p_k를 구하고, 최소 예산 b_min을 보장하면서 전체 예산 B를 나눠준다. 이렇게 하면 밀집된 백과사전이 전체 예산을 독점하는 것을 방지하고, 권위가 높은 소스에 충분한 검색 기회를 제공한다.

두 번째 모듈은 정렬 그래프 기반 증거 융합이다. 각 문서 청크와 그 안에 포함된 타입별 엔티티(질병, 증상, 약제 등)를 양측 그래프의 노드로 두고, 청크‑엔티티 간에 에지를 만든다. 질의에서 추출한 엔티티와 상위 청크에서 추출한 엔티티를 시드 엔티티 집합으로 삼아, h 홉 이내의 연결 청크를 탐색해 교차‑KB 브리지 청크를 확보한다. 각 청크에 대해 (1) 질의 엔티티와의 겹침 수 o(q,c)와 (2) 시드 엔티티와의 그래프 거리 d(q,c)를 이용해 그래프 지원 점수 s_g를 계산하고, 기존 의미 기반 점수 s_base와 가중 평균(α)으로 최종 점수 s_final을 만든다.

마지막으로 토큰 예산 T_max 하에서 증거를 패킹한다. 먼저 요구되는 KB 집합(K_req)마다 가장 높은 s_final을 가진 청크를 선택해 최소 한 개씩 포함시키고, 이후 남은 예산을 점수 순으로 채우되 동일 문서에서 과도하게 청크가 선택되지 않도록 문서당 청크 수 상한(C_doc)을 적용한다. 이 greedy 알고리즘은 “커버리지‑우선” 전략을 구현해, 교차‑KB 검증이 필요한 질문에서 반드시 필요한 모든 소스가 증거에 포함되도록 보장한다.

실험은 500개의 질문으로 구성된 자체 구축 QA 벤치마크에서 수행되었다. 질문은 정의, 고전 원리, 임상 근거, 교차‑KB 종합 네 종류로 균등하게 배분되었으며, 각 질문마다 정답과 청크‑레벨 근거가 제공된다. 평가 지표는 답변 정확도, 증거 지원 정도, 그리고 CrossEv@5(다중 소스에서 상위 5개 청크 중 교차‑KB 증거가 포함된 비율) 등을 포함한다. DAKS 라우팅만 적용한 경우에도 기존 플랫 인덱스 대비 KB 라우팅 정확도와 Top‑2 소스 선택 비율이 크게 상승했으며, 정렬 그래프 융합을 추가했을 때 CrossEv@5가 12%p 상승하고, 전체 답변 신뢰도(FAITH)와 인용 정확도(CIT)도 소폭 개선되었다. 특히 교차‑KB 합성 질문에서 증거 누락이 현저히 감소했으며, LLM이 제공한 답변에 대한 인간 평가에서도 “근거가 명확히 제시된” 점수가 가장 높았다.

이 논문은 전통 의학과 같이 지식이 다중 출처에 흩어져 있는 도메인에서 RAG 시스템을 설계할 때, 소스 선택과 증거 융합을 별도 모듈로 분리하고, 각 모듈에 도메인 특화된 신호(밀집도, 권위, 엔티티 정렬)를 활용하면 추적 가능성과 신뢰성을 크게 향상시킬 수 있음을 실증한다. 또한 경량 LLM(openPangu‑Embedded‑7B)과 결합해 실시간 서비스에 적용 가능한 효율성을 보여준다.


댓글 및 학술 토론

Loading comments...

의견 남기기