다중모달 다중에이전트 강화학습 기반 방사선 보고서 생성

본 논문은 방사선 보고서 자동 생성(RRG) 분야에서 기존의 단일 모델 강화학습 및 훈련‑프리 에이전트 시스템의 한계를 지적하고, 실제 방사선과 의사의 작업 흐름을 모사한 **다중모달 다중에이전트 강화학습 프레임워크(MARL‑Rad)** 를 제안한다. **1. 배경 및 동기** 대규모 언어 모델(LLM)과 비전‑언어 모델(VLM)의 급격한 발전에도 불구하고, 의료 분야 특히 흉부 X‑ray 보고서 생성에서는 (a) 임상적 정확성을 보장하기 어려운 NLG 중심의 평가, (b) 강화학습이 주로 단일 모델에 적용돼 실제 진단 과정의 단계적 사고를 반영하지 못한다는 문제가 있었다. 또한, 최근 등장한 에이전트 기반 시스템들은 대부분 사전학습된 모델을 프롬프트로 연결하는 **training‑free** 방식이며, 전체 시스템을 공동으로 최적화하지 못한다는 점에서 비효율적이다. **2. MARL‑Rad 설계** MARL‑Rad는 네 개의 에이전트로 구성된다. - **좌측 영역 에이전트**: 좌폐, 좌측 폐문, 좌측 흉막각 등 검토. - **중앙 영역 에이전트**: 심장 실루엣, 종격동, 대동맥궁, 기관, 척추 등 검토. - **우측 영역 에이전트**: 우폐, 우폐문, 우측 흉막각 등 검토. - **글로벌 통합 에이전트**: 세 지역 에이전트의 출력(진단, 소견)을 종합해 최종 보고서(Findings, Impression) 생성. 각 에이전트는 동일한 멀티모달 인코더(이미지 특징)와 독립적인 텍스트 디코더(LLM)를 갖으며, 순차적으로 활성화된다. 이는 방사선과 의사가 실제로 이미지의 각 영역을 차례로 살피고, 마지막에 전체적인 결론을 내리는 과정과 일치한다. **3. 강화학습 알고리즘** 기존 GSPO(Group Sequence Policy Optimization)를 다중 에이전트 환경에 확장한 **MA‑GSPO** 를 도입한다. - 각 쿼리‑답 쌍(q, a)에서 K(=4) 에이전트가 공동으로 생성한 시퀀스 집합 {x_i}를 샘플링. - 각 시퀀스에 대해 **임상 검증 가능한 보상** r(x_i, a)를 계산. 보상은 CheXbert 정확도, RadGraph F1, ROUGE‑L을 **동등 가중 평균**한 값이다. - 그룹‑레벨 어드밴티지 ˆA_i = (r_i – μ)/σ 로 정의하고, 이를 모든 에이전트에 공유한다. - 각 에이전트의 정책 파라미터 θ_k는 중요도 비율 s(k)_i(θ_k)를 사용해 클리핑된 PPO‑style 목표함수에 따라 업데이트된다. 이 방식은 (a) 에이전트 간 협업을 촉진하고, (b) 전체 시스템이 실제 임상 목표에 직접 맞춰 학습되도록 보장한다. **4. 실험 설정** - **데이터**: MIMIC‑CXR(전국 규모)와 IU X‑ray(소규모) 두 데이터셋을 사용. MIMIC‑CXR는 공식 훈련/검증/테스트 분할을 그대로 활용하고, 강화학습 단계에서는 훈련 샘플 중 1,600개를 무작위 추출. IU X‑ray는 70/20/10 비율로 분할. - **평가 지표**: NLG 지표(BLEU‑1/4, METEOR, ROUGE‑L)와 임상 효능(CE) 지표(RadGraph F1, CheXbert F1, GREEN 점수). CE 지표는 실제 임상의 판단과 높은 상관관계를 갖는 것으로 알려져 있다. **5. 주요 결과** - **CE 지표**에서 MARL‑Rad는 모든 비교 모델(R2Gen, DeepMedix‑R1, CheXagent 등)을 앞섰다. 특히 RadGraph F1과 CheXbert F1에서 각각 4~6%p 상승을 기록했다. - **NLG 지표**는 기존 모델과 비슷하거나 약간 개선되었으며, 이는 보상이 임상 정확성에 초점을 맞추면서도 언어적 자연스러움을 크게 손상시키지 않았음을 의미한다. - **Laterality Consistency**(좌우 측면 일관성) 분석에서 MARL‑Rad는 기존 모델 대비 오류율이 절반 수준으로 감소했다. 이는 지역‑전문 에이전트가 각각의 해부학적 영역을 독립적으로 검토하도록 설계된 덕분이다. - **Ablation Study**에서 (i) 단일 에이전트 버전, (ii) 보상에서 ROUGE‑L을 제외한 경우, (iii) MA‑GSPO 대신 표준 PPO를 사용한 경우 모두 성능이 현저히 떨어짐을 확인했다. **6. 논의 및 한계** - **확장성**: 현재는 흉부 X‑ray에 특화된 3개의 지역 에이전트와 1개의 통합 에이전트 구조이지만, CT, MRI 등 다중 모달 영상에 적용하려면 에이전트 수와 역할을 재설계해야 한다. - **보상 설계**: 현재는 세 가지 지표를 단순 평균했으나, 임상 상황에 따라 가중치를 조정하거나 새로운 검증 가능한 지표(예: 질병 중증도 점수)를 도입할 여지가 있다. - **이미지 인코더**: 고정된 사전학습 이미지‑텍스트 인코더를 사용했으며, 이미지 특화 강화학습(예: 시각적 피드백)을 포함하면 추가 성능 향상이 기대된다. **7. 결론** MARL‑Rad는 “진단 흐름을 그대로 모사한 다중‑에이전트 강화학습”이라는 새로운 패러다임을 제시한다. 임상적으로 검증 가능한 보상을 통해 전체 시스템을 온‑정책 방식으로 공동 최적화함으로써, 기존 단일 모델 기반 접근법보다 높은 임상 효능과 좌우 일관성을 달성하였다. 향후 다양한 영상 modality와 보다 정교한 보상 설계가 결합된다면, 실제 병원 현장에서 방사선 보고 자동화 시스템으로 활용될 가능성이 크다.

다중모달 다중에이전트 강화학습 기반 방사선 보고서 생성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기