동적 도구 통합 강화학습으로 의료 추론 검증 확장
초록
본 논문은 의료 질문에 대한 다단계 추론 과정을 검증하기 위해, 외부 의료 문헌을 반복적으로 검색하고 활용하는 도구‑통합 검증 에이전트를 제안한다. 제한된 라벨링만으로 강화학습(RL)과 적응형 커리큘럼을 결합해 검증 모델을 학습시키며, MedQA와 MedXpertQA 등 네 개 벤치마크에서 기존 보상 모델 대비 23.5%·32.0%의 정확도 향상과 8배의 샘플링 효율성을 달성한다.
상세 분석
Med‑TIV는 기존의 스칼라 보상 모델이 제공하는 “점수만”의 한계를 극복하기 위해, 검증 에이전트가 자체적으로 검색 쿼리를 생성하고 의료 코퍼스에서 증거 문서를 받아오는 반복적 도구 사용 메커니즘을 도입한다. 이 과정에서 에이전트는
강화학습은 PPO 기반의 Dr‑GRPO 알고리즘을 변형해 적용했으며, 보상은 두 가지 요소로 구성된다. 첫 번째는 “정확성 보상”(R_c)으로, 에이전트가 최종
학습 효율을 높이기 위해 적응형 커리큘럼을 설계했다. 매 반복에서 동일 배치 내의 여러 샘플에 대해 에이전트가 생성한 트레이젝터리들의 보상 분산을 계산하고, 보상이 모두 동일(전부 성공 혹은 전부 실패)한 경우는 제외한다. 즉, 모델이 확신을 갖고 있거나 전혀 학습이 되지 않은 “경계” 사례만을 남겨, 정책 그라디언트가 의미 있는 신호를 제공하도록 만든다. 이렇게 동적으로 난이도를 조절함으로써 라벨링 비용을 고정하면서도 모델이 점진적으로 어려운 사례를 학습하도록 만든다.
실험에서는 7B 크기의 생성 모델을 고정하고, Med‑TIV 검증기를 플러그인 형태로 연결해 다양한 샘플링 전략(Best‑of‑N, 검증 기반 다수결)과 결합했다. MedQA에서 23.5%, MedXpertQA에서 32.0%의 절대 정확도 향상을 기록했으며, 동일 정확도를 달성하는 데 필요한 샘플 수가 기존 보상 모델 대비 8배 감소했다. 추가적인 Ablation 연구에서는(1) 도구 사용 없이 순수 텍스트 기반 검증기로 되돌렸을 때 성능 급락, (2) 형식 보상을 제거했을 때 출력이 비정형화되고 오류가 증가함을 확인했다.
한계점으로는 외부 검색 엔진의 품질에 크게 의존한다는 점과, 현재는 의료 코퍼스가 제한된 도메인(예: 미국 FDA 승인 문헌)으로 구성돼 있어 범용성 검증이 필요하다는 점을 들 수 있다. 또한 강화학습 과정에서 보상 설계가 비교적 단순해, 미묘한 논리 오류를 포착하는 데는 한계가 있을 수 있다. 향후 연구에서는 멀티모달 증거(이미지, 표) 통합, 더 정교한 보상 함수(예: 부분 점수 기반) 및 인간 피드백을 활용한 하이브리드 학습을 탐색할 예정이다.
댓글 및 학술 토론
Loading comments...
의견 남기기