TCM‑DiffRAG: 지식그래프와 사고사슬을 결합한 맞춤형 한의학 진단 프레임워크
초록
**
본 논문은 전통 한의학의 복합적 진단 과정을 지원하기 위해, 일반·개인화 지식그래프와 체인‑오브‑쓰(Chain‑of‑Thought) 기반 추론 모델을 결합한 TCM‑DiffRAG라는 새로운 Retrieval‑Augmented Generation(RAG) 체계를 제안한다. 580권 이상의 고전 교과서를 활용한 매크로‑마이크로 이중 레벨 지식그래프를 구축하고, 실제 임상 사례를 통해 개인화 그래프를 생성한다. 생성된 사고사슬을 트리플 형태로 분해·매칭하여 다단계 검색과 추론을 수행함으로써, 기존 LLM 및 기존 RAG 방법에 비해 진단 정확도와 설명성을 크게 향상시켰다.
**
상세 분석
**
TCM‑DiffRAG는 한의학이라는 특수 의료 분야의 두드러진 특징, 즉 ‘증(證)’ 중심의 진단과 학교·개인별 치료법 차이를 고려한 맞춤형 지식 구조를 설계한다는 점에서 혁신적이다. 먼저, 저자들은 580여 권의 전통 한의학 교과서와 임상 사례를 대상으로 ‘매크로‑마이크로’ 이중 레벨 지식그래프를 구축한다. 매크로 레벨에서는 문서 레이아웃 모델을 이용해 장·절·소제목을 트리 구조로 정리하고, 마이크로 레벨에서는 LLM 기반 엔티티·관계 추출을 통해 삼중항(triple) 형태의 의료 논리 정보를 수집한다. 이 과정에서 전통적인 온톨로지 기반 그래프의 엄격성을 다소 포기하고, 텍스트 기반의 자연어 인덱싱을 강화함으로써 실제 임상 텍스트와의 매핑 효율을 높였다.
다음으로, 일반 지식그래프를 개인화 그래프로 전이시키는 단계에서는 각 한의학 학파·의사의 진단·처방 사례를 활용한다. 질문‑답변 쌍을 Qwen2.5‑72B‑instruct 모델에 입력해 다중 홉 사고사슬(Chain‑of‑Thought)을 생성하고, 이를 트리플로 분해한다. 분해된 트리플은 벡터 임베딩(Alibaba Cloud text‑embedding‑v3) 기반 유사도 매칭을 통해 일반 그래프에서 관련 엔티티·관계를 찾아내고, 해당 텍스트 조각을 추출한다. 이렇게 확보된 ‘증상‑진단‑처방’ 트리플과 교과서 텍스트를 컨텍스트로 제공함으로써, 모델은 질문에 대한 단계적 추론 과정을 스스로 생성한다. 생성된 추론 텍스트에서 새롭게 발견된 엔티티·관계를 추출해 개인화 그래프에 추가함으로써, 지속적인 지식 업데이트와 학파별 특성 반영이 가능해진다.
실험에서는 세 가지 공개된 한의학 데이터셋(TCM‑MCQ, TCM‑SD, Jingfang‑SD)을 활용해 성능을 평가하였다. 기본 LLM인 Qwen‑plus 모델의 F1 점수가 각각 0.927, 0.361, 0.038이었으나, TCM‑DiffRAG 적용 후 0.952, 0.788, 0.356으로 크게 상승하였다. 특히 비중국어 LLM에서도 유사한 향상이 관찰되었으며, 직접 SFT( supervised fine‑tuning)된 모델 및 기존 RAG 변형(Naive RAG, KG‑RAG, Reasoning‑RAG)보다 우수한 결과를 보였다. 이는 구조화된 지식과 사고사슬 기반 추론이 복합적인 증상‑진단‑처방 관계를 효과적으로 포착한다는 증거이다.
한계점으로는(1) 매크로‑마이크로 그래프 구축 시 자동화된 엔티티 추출의 오류 전파 위험, (2) 개인화 그래프 생성에 필요한 고품질 임상 사례 확보의 어려움, (3) 현재는 트리플 매칭에 코사인 유사도만 사용해 복합 관계를 충분히 반영하지 못할 가능성 등이 있다. 향후 연구에서는 보다 정교한 온톨로지 설계, 멀티모달(이미지·음성) 데이터 통합, 그리고 강화학습 기반의 동적 검색 전략을 도입해 실시간 임상 지원 시스템으로 확장할 여지가 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기