일관된 추론으로 의료 이상 탐지를 혁신하는 MedADR1
초록
본 논문은 대규모 멀티모달·멀티센터 의료 이상 탐지 벤치마크 MedAD‑38K를 구축하고, 두 단계 학습 프레임워크를 제안한다. 첫 단계인 Cognitive Injection을 통해 대규모 SFT로 의료 지식을 주입하고, 두 번째 단계에서는 Consistency‑Group Relative Policy Optimization(Con‑GRPO)이라는 강화학습 알고리즘으로 사고‑답변 일관성을 보상한다. 3B 파라미터 모델 MedADR1은 진단 정확도와 추론 일관성 모두에서 기존 최첨단 모델보다 10% 이상 향상된 성능을 보이며, 투명하고 검증 가능한 진단 과정을 제공한다.
상세 분석
본 연구는 의료 영상 기반 이상 탐지(MedAD) 분야에서 ‘추론‑답변 불일치’라는 근본적인 문제를 해결하고자 한다. 기존 대형 멀티모달 모델은 주로 이미지‑텍스트 매핑을 학습하는 Supervised Fine‑Tuning(SFT)에 의존해, 정답은 맞출 수 있으나 그 과정이 논리적으로 비연결적이거나 환각(hallucination)되는 경우가 빈번했다. 이를 극복하기 위해 저자들은 두 가지 핵심 전략을 도입한다.
첫 번째는 Cognitive Injection 단계이다. 여기서는 MedAD‑38K 벤치마크를 활용해 대규모 SFT를 수행한다. MedAD‑38K는 10개 영상 모달리티(MRI, CT, OCT 등)와 10개 해부학적 부위를 포괄하며, 각 이미지마다 5가지 진단 축(해부학 식별, 모달리티 분류, 이상 탐지, 병리 특성화, 병변 위치)으로 구성된 구조화된 VQA 쌍과 전문가 검증을 거친 Chain‑of‑Thought(CoT) 주석을 제공한다. 이러한 풍부한 주석은 모델이 ‘생각‑하고‑답변한다’는 형식(
두 번째는 Con‑GRPO(Consistency‑Group Relative Policy Optimization) 단계이다. 표준 정책 최적화는 보상으로 정답 정확도만을 사용해, 사고 과정이 정답과 무관하게 최적화될 위험이 있다. Con‑GRPO는 두 가지 보상을 결합한다. ① 정답 보상: 기존 RL 보상 함수와 동일하게 정답 여부를 평가한다. ② 일관성 보상: 생성된 CoT 텍스트와 최종 답변 사이의 논리적 일관성을 측정한다. 구체적으로, 사고 텍스트와 답변을 임베딩한 뒤 코사인 유사도 혹은 텍스트 entailment 모델을 이용해 일관성 점수를 산출하고, 이를 정책 그래디언트에 가중치로 적용한다. 또한 ‘그룹 상대’ 방식으로 동일 이미지에 대한 다중 샘플(다양한 질문 변형) 간의 일관성을 비교·보정함으로써, 모델이 질문 표현 변화에 대해 일관된 추론 흐름을 유지하도록 유도한다.
실험 결과, 3B 파라미터 MedADR1은 MedAD‑38K 테스트 셋에서 진단 정확도 78.4%를 기록했으며, 이는 기존 LLaVA‑Med, HuatuoGPT‑Vision 등 강력한 베이스라인보다 10.2%p 높은 수치이다. 또한 CoT 일관성 평가(ROUGE‑L, BLEU, 논리 일관성 점수)에서도 평균 12% 이상 개선되었다. 경량 모델임에도 불구하고 멀티모달 일반화 능력이 뛰어나, 훈련에 사용되지 않은 모달리티(예: 초음파)와 새로운 센터 데이터에서도 성능 저하가 미미했다.
이러한 접근은 투명성과 신뢰성을 동시에 확보한다는 점에서 임상 의사결정 지원 시스템에 큰 의미를 가진다. 모델이 제공하는 사고 과정은 의료 전문가가 검증 가능하도록 설계돼, ‘블랙박스’ 문제를 크게 완화한다. 다만, CoT 주석을 위한 인간 검증 비용이 높고, 강화학습 단계에서 보상 설계가 복잡해 학습 안정성에 민감하다는 한계도 존재한다. 향후 자동화된 일관성 평가 기법과 더 다양한 임상 시나리오를 포함한 확장된 벤치마크가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기