생물의학 대형 언어 모델을 위한 지식‑구동형 에이전트 기반 코퍼스 증류 프레임워크
초록
본 논문은 MeSH 계층 구조를 활용한 다중 에이전트 시스템을 통해 방대한 생물의학 논문에서 고품질 질문‑답변‑컨텍스트 삼중항을 자동으로 생성·평가하는 코퍼스 증류 파이프라인(m‑KAILIN)을 제안한다. 생성된 데이터로 학습된 LLM은 기존 생물의학 QA 베이스라인 및 상용 모델을 능가하며, Llama‑3‑70B가 GPT‑4 기반 모델을 추월하는 성과를 보인다.
상세 분석
이 연구는 현재 공개된 생물의학 데이터셋이 규모와 다양성에서 한계에 봉착한다는 문제를 인식하고, ‘지식‑구동형 에이전트 협업’이라는 새로운 패러다임을 도입한다. 핵심 아이디어는 MeSH(의학 주제 표제)라는 정형화된 온톨로지를 각 에이전트의 행동 지침으로 삼아, 질문 생성, 컨텍스트 검색, 질문‑컨텍스트 평가, 답변 생성 네 단계의 파이프라인을 순환적으로 최적화한다는 점이다.
-
질문 생성 에이전트는 BioASQ 데이터로 파인튜닝된 두 개의 LLM(도메인 특화 BioMistral과 범용 Llama‑3)을 사용해 동일 문서에서 서로 다른 질문을 생성한다. 이는 질문 공간의 다양성을 확보하고, 도메인 전문성과 일반 추론 능력을 동시에 활용한다.
-
컨텍스트 검색 에이전트는 DPR 기반의 Dense Passage Retrieval을 적용해 질문에 가장 연관된 논문 본문을 상위 k개 추출한다. 여기서 BiomedBERT 인코더가 질문·문서 모두를 동일한 임베딩 공간에 매핑함으로써 효율적인 유사도 계산을 가능하게 한다.
-
질문‑컨텍스트 평가 에이전트는 두 단계로 구성된다. 첫 번째는 MeSH 용어 간의 정보량 기반 유사도 점수(공통 조상 기반)를 계산해 ‘콜드 스타트’ 라벨을 자동 생성한다. 이 라벨은 대규모 무인 학습을 위한 고신뢰 감독 신호 역할을 한다. 두 번째는 이 라벨을 이용해 LLM(ϕ)을 파인튜닝, 질문‑컨텍스트 쌍의 선호도를 예측하도록 학습한다. 이렇게 학습된 평가 모델은 인간 라벨 없이도 후보 쌍을 비교·선택할 수 있다.
-
답변 생성 에이전트는 최종 선택된 질문‑컨텍스트 쌍에 대해 GPT‑4o와 같은 최신 LLM을 활용해 정확하고 풍부한 답변을 만든다.
전체 파이프라인은 ‘에이전트 협업’이라는 메타 레이어로 연결된다. 질문 생성 에이전트가 만든 질문을 컨텍스트 검색 에이전트가 보강하고, 평가 에이전트가 최적 쌍을 선별한 뒤 답변 에이전트가 완전한 QA 데이터를 완성한다. 이 과정은 DPO(Direct Preference Optimization)를 통해 질문 생성 모델 자체도 지속적으로 개선한다.
실험에서는 23백만 개 이상의 PubMed 논문을 원천으로 약 10억 개 수준의 QA‑Context 삼중항을 자동 생성했으며, 이를 기반으로 학습된 LLM이 BioASQ, MedQA, PubMedQA 등 다양한 벤치마크에서 기존 오픈소스 모델(BioMistral, PubMed‑LLaMA 등)과 상용 모델(Med‑PaLM‑2, GPT‑4)보다 평균 3~7%p 높은 정확도를 기록했다. 특히 Llama‑3‑70B는 ‘AI‑Ready’ 데이터셋만으로도 GPT‑4 기반 MedPrompt를 능가하는 성능을 보였다.
주요 기여는 (1) MeSH 기반 지식‑구동 평가 메커니즘을 통한 라벨링 비용 제로화, (2) 도메인 특화와 일반 모델의 상호 보완적 질문 생성, (3) 다중 에이전트 협업을 통한 데이터 품질·다양성 동시 향상, (4) 대규모 자동 증류 파이프라인을 실제 학습에 적용해 실증적 성능 향상을 입증한 점이다. 이 프레임워크는 향후 다른 전문 분야(예: 화학, 재료 과학)에도 MeSH와 유사한 온톨로지를 매핑하면 확장 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기