멀티턴 에이전트 강화학습 기반 인터랙티브 의료 영상 분할

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 멀티모달 언어 모델을 의료 영상 분할 도구인 SAM과 결합해, 다단계 의사결정 과정을 학습시키는 MedSAM‑Agent 프레임워크를 제안한다. 전문가가 수행하는 박스·포인트 입력을 모방한 하이브리드 프롬프트로 고품질 트라젝터리를 생성하고, 이를 바탕으로 감독‑미세조정(SFT)과 검증 가능한 보상(RLVR) 두 단계 학습을 진행한다. 다중 턴 상호작용과 과정‑레벨 보상 설계로 불필요한 행동을 억제하고, 6개 의료 모달리티·21개 데이터셋에서 최첨단 성능을 달성한다.

상세 분석

MedSAM‑Agent는 기존 MLLM‑기반 자동 분할 방법이 단일 턴 혹은 포인트 전용 상호작용에 머물러 있다는 한계를 극복한다. 핵심 아이디어는 인터랙티브 세그멘테이션을 “다단계 의사결정 프로세스”로 재구성하고, 이를 강화학습 에이전트가 학습하도록 하는 것이다. 이를 위해 저자들은 두 가지 혁신적인 요소를 도입한다. 첫째, 하이브리드 프롬프트 전략으로 전문가가 실제 주석 작업에서 사용하는 박스‑투‑포인트 흐름과 순차 클릭 흐름을 시뮬레이션한다. 초기 박스는 목표 마스크의 최소 외접 사각형에 무작위 jitter를 가해 인간의 부정확성을 모방하고, 이후 단계에서는 False Negative·Positive 영역을 거리 변환으로 분석해 가장 큰 오류 클러스터의 중심에 포인트를 배치한다. 각 행동은 ΔIoU > τ 라는 진행 기준을 만족해야 하며, 기준을 못 충족하면 N번까지 재시도한다. 이렇게 생성된 트라젝터리는 전역 IoU 필터링을 거쳐 고품질, 단조 상승 시퀀스만 남긴다. 둘째, 두 단계 학습 파이프라인이다. 첫 단계인 SFT는 생성된 트라젝터리를 이용해 정책 모델(MLLM)에 기본적인 박스·포인트 선택 능력을 주입한다. 두 번째 단계인 RLVR에서는 최종 마스크의 Dice/IoU와 더불어 과정‑레벨 보상을 설계한다. 구체적으로, 행동 수 감소(파라미터 β)와 각 턴의 IoU 향상(ΔIoU) 두 축을 결합해 “효율성”과 “정밀도”를 동시에 최적화한다. 보상은 검증 가능한 형태로 정의돼, 학습 중에 자동으로 계산·피드백된다.

행동 공간은 박스, 포인트(양·음성), 정지 네 가지로 제한돼, 에이전트가 상황에 맞는 도구를 선택하도록 강제한다. 상태는 이전 행동·관찰(업데이트된 마스크)의 시퀀스로 구성돼, 장기 의존성을 학습하게 만든다. 정책은 Transformer 기반 MLLM에 토큰을 삽입해 도구 호출을 수행하고, 각 턴마다 관찰 마스크를 입력에 재통합한다.

실험에서는 6개 의료 모달리티(CT, MRI, 초음파 등)와 21개 공개 데이터셋을 활용해, 기존 SAM‑파생 모델, MLLM‑기반 텍스트‑주도 모델, 그리고 최신 RL‑기반 에이전트와 비교했다. MedSAM‑Agent는 평균 Dice + 5.2%p, IoU + 4.8%p 향상을 보였으며, 평균 턴 수는 30% 감소했다. 특히 복잡한 형태(폴립, 종양 등)와 경계가 불명확한 경우에 박스·포인트 혼합 전략이 큰 효과를 발휘했다.

한계점으로는 현재 박스·포인트 외에 마스크·스플라인 등 고급 프롬프트를 지원하지 않으며, 시뮬레이션된 트라젝터리가 실제 임상의와 완전히 일치하지 않을 가능성이 있다. 향후 연구에서는 실제 주석자 데이터를 활용한 인간‑인‑루프 학습과, 다양한 도구(스플라인, 레이블 전이) 통합을 통해 일반성을 더욱 확대할 수 있다.

멀티턴 에이전트 강화학습 기반 인터랙티브 의료 영상 분할

초록

상세 분석

댓글 및 학술 토론

의견 남기기