3D 의료 영상‑언어 모델을 위한 임상 추론 강화 프레임워크 Med3D‑R1
초록
Med3D‑R1은 3차원 CT 영상과 보고서를 연결하는 비전‑언어 모델에 두 단계 학습(SFT → RL)을 적용한다. SFT 단계에서는 고차원 3D 특징을 텍스트 앵커에 잔차 형태로 정렬하는 Residual Alignment Mechanism과, 정상·비정상 서술의 위치 편향을 보정하는 Abnormality Re‑Weighting을 도입한다. RL 단계에서는 진단 일관성을 촉진하는 Consistency Reward를 설계해 단계적 추론 과정을 강화한다. CT‑RATE와 RAD‑ChestCT 벤치마크에서 각각 41.92 %와 44.99 % 정확도를 기록, 기존 최첨단을 넘어섰다.
상세 분석
본 논문은 3D 의료 영상, 특히 CT와 같은 고차원 볼륨 데이터에 대한 비전‑언어 모델(VLM)의 임상 추론 능력 부족을 근본적으로 해결하고자 한다. 기존 2D 기반 VLM은 이미지‑텍스트 정렬이 비교적 단순하지만, 3D 데이터는 공간 구조와 스케일 변동이 크고, 보고서는 “정상‑우선” 서술 패턴으로 인해 비정상 정보를 뒤쪽에 배치하는 위치 편향을 가진다. 이러한 특성은 SFT 단계에서 모델이 표면적인 언어 패턴에 과도하게 의존하게 만들고, 실제 진단 논리와는 동떨어진 결과를 초래한다.
Med3D‑R1은 첫 번째 단계인 Supervised Fine‑Tuning에서 두 가지 핵심 모듈을 제안한다. Residual Alignment Mechanism(RAM)은 3D ViT에서 추출된 고차원 볼륨 특징을 미리 정의된 텍스트 앵커와의 잔차 형태로 매핑한다. 즉, 전체 텍스트 임베딩을 직접 맞추는 대신, “텍스트 기준점 + 잔차” 구조를 학습함으로써 정렬 난이도를 낮추고, 중간 표현의 의미적 해석 가능성을 높인다. Abnormality Re‑Weighting(ARW)은 보고서 내 토큰의 위치와 빈도 정보를 활용해 비정상 토큰에 가중치를 부여한다. 정상 서술이 앞부분에 집중되는 현상을 정량화하고, 손실 함수에 가중치 행렬을 삽입해 비정상 정보가 학습 과정에서 충분히 강조되도록 설계하였다.
두 번째 단계인 Reinforcement Learning에서는 기존 연구가 정답 정확도만을 보상으로 사용한 점을 보완한다. Consistency Reward는 모델이 생성한 단계별 추론 체인(예: “slice → lesion → diagnosis”)과 레퍼런스 보고서의 논리 흐름을 비교해 일관성을 점수화한다. 이를 위해 토큰‑레벨 시퀀스 매칭과 의미적 유사도(예: cosine similarity) 기반의 보상 함수를 정의하고, Group Relative Policy Optimization(GRPO) 알고리즘을 적용해 정책 업데이트를 수행한다. 결과적으로 모델은 최종 답변뿐 아니라 중간 reasoning 단계에서도 임상적으로 타당한 설명을 생성한다.
실험은 MMVQA(Medical Multiple‑choice Visual Question Answering) 설정에서 CT‑RATE와 RAD‑ChestCT 두 벤치마크를 사용하였다. Med3D‑R1은 각각 41.92 %와 44.99 %의 정확도를 달성해 기존 3D VLM(예: Med3D VLM, E3D‑GPT)보다 3~5 %p 상승했다. Ablation study에서는 RAM 없이 SFT만 수행했을 때 정확도가 2.8 %p 감소하고, ARW를 제외하면 1.9 %p 감소함을 보여 두 모듈이 상호 보완적임을 확인했다. 또한 Consistency Reward를 적용하지 않은 RL 버전은 최종 정확도는 비슷하지만, 추론 텍스트의 논리적 일관성 점수가 현저히 낮았다.
한계점으로는 3D 볼륨을 슬라이스 단위로 처리하면서 연산 비용이 크게 증가하고, 텍스트 앵커 설계가 도메인‑특정(CT)으로 제한된다는 점을 들 수 있다. 향후 연구에서는 멀티‑스케일 3D 피처 집합과 범용 텍스트 앵커(예: 의료 온톨로지 기반) 도입, 그리고 인간 방사선과의 협업 평가를 통해 임상 적용성을 더욱 검증할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기