CT 영상 병변 이해를 위한 종합 벤치마크
초록
**
CT‑Bench는 7,795건의 CT 연구에서 20,335개의 병변을 추출한 대규모 멀티모달 데이터셋과 2,850개의 다중 선택형 VQA 질문을 포함한 벤치마크이다. 병변별 바운딩 박스, 상세 서술, 크기 정보가 제공되며, 실제 임상 상황을 반영한 하드 네거티브 사례도 포함한다. 최신 비전‑언어 모델과 의료 전용 CLIP 변형을 평가한 결과, 데이터셋을 활용한 파인튜닝이 전반적인 성능을 크게 향상시켰으며, 특히 BiomedCLIP이 62% 평균 정확도로 최고 성능을 기록했다.
**
상세 분석
**
CT‑Bench는 기존 CT 기반 멀티모달 데이터셋이 갖는 한계를 명확히 인식하고, 두 가지 핵심 구성요소를 통해 이를 보완한다. 첫 번째는 “Lesion Image & Metadata Set”으로, 2D 슬라이스와 선택적인 3D 서브볼륨을 병변 중심으로 정렬하고, PACS 보고서에서 추출한 정형화된 텍스트(병변 설명, 크기 측정)와 바운딩 박스를 1:1 매핑한다. 이는 DeepLesion이 제공하던 바운딩 박스만을 넘어, 임상적 의미를 담은 자연어 라벨을 추가함으로써 비전‑언어 정렬 학습에 필요한 풍부한 신호를 제공한다. 두 번째는 “CT‑Bench QA Benchmark”으로, 2,850개의 다중 선택형 질문을 일곱 가지 작업(단일 슬라이스 캡션, 텍스트 기반 슬라이스 검색, 병변 위치 추정, 크기 추정, 속성 분류, 다중 슬라이스 캡션, 다중 슬라이스 속성 분류)으로 구분한다. 특히 하드 네거티브 사례를 포함해 모델이 단순히 통계적 패턴을 학습하는 것이 아니라, 실제 임상에서 흔히 마주치는 혼동 상황을 해결하도록 설계되었다.
평가에서는 일반 비전‑언어 모델(Dragonfly, Gemini), 의료 특화 모델(LLaVA‑Med, RadFM), 그리고 의료 CLIP 변형(BiomedCLIP) 등을 비교하였다. 바운딩 박스 정보를 제공했을 때 전반적인 성능이 상승했으며, 특히 Img2txt, Context2txt, Img2attrib와 같은 시각‑언어 정렬이 필요한 작업에서 그 효과가 두드러졌다. 반면 Txt2img와 같이 전역 의미 매칭에 의존하는 작업은 공간 정보에 크게 민감하지 않았다. 모델별 특성을 보면, BiomedCLIP은 사전 학습 단계에서 이미 의료 영상과 텍스트 간의 정교한 임베딩 정렬을 학습했기 때문에, 파인튜닝 없이도 평균 41%의 정확도를 기록했으며, 바운딩 박스와 결합했을 때 62%까지 끌어올렸다. Gemini은 텍스트‑바운딩 박스 매핑(Txt2bbox)과 크기 추정(Img2size)에서 강점을 보였으며, Dragonfly는 속성 관련 질문에서 고른 성능을 유지했다. GPT‑4V는 전반적으로 중간 수준이었지만, 속성 인식에서는 비교적 높은 점수를 얻었다.
흥미로운 점은 RadFM을 이미지 캡션 데이터만으로 파인튜닝했을 때 모든 QA 작업에서 성능이 0점으로 급락한 것으로, 이는 ‘catastrophic forgetting’ 현상의 전형적인 사례다. 이는 멀티태스크 학습 시 한 작업에만 집중하면 다른 작업에 대한 지식이 소실될 위험을 강조한다. 또한 단일 슬라이스 기반 작업과 다중 슬라이스 기반 작업 간의 성능 격차가 크게 나타났는데, 이는 현재 모델들이 3D 볼륨 정보를 충분히 활용하지 못하고, 슬라이스를 독립적으로 처리하거나 얕은 집계 방식에 의존하기 때문이다. 따라서 향후 연구는 볼륨 전체를 인코딩하는 3D CNN, 트랜스포머 기반 크로스‑슬라이스 어텐션, 혹은 하이브리드 2D‑3D 구조를 도입해 공간적 연속성을 모델링해야 할 필요가 있다.
인간 평가에서는 두 명의 시니어 방사선과 한 명의 주니어 의사가 100개씩 무작위 샘플을 검토했으며, 바운딩 박스가 제공된 상황에서 모델과 방사선과의 일치율이 90% 이상에 달했다. 이는 CT‑Bench가 실제 임상 판단과 높은 일관성을 보임을 의미한다. 그러나 바운딩 박스가 없을 경우 일치율이 현저히 떨어지는 점은, 공간 정보가 임상 의사결정에 얼마나 중요한지를 재확인시킨다.
전체적으로 CT‑Bench는 대규모 병변‑레벨 멀티모달 데이터와 정교한 QA 벤치마크를 결합해, 현재 의료 비전‑언어 모델의 한계를 명확히 드러내고, 파인튜닝을 통한 성능 향상의 가능성을 제시한다. 데이터셋 자체가 고품질이지만, 라벨링 비용과 확장성 문제, 현재 모델들의 3D 추론 한계 등 남은 과제도 명확히 제시하고 있다. 향후 연구는 반자동 라벨링 파이프라인, 볼륨 기반 아키텍처, 그리고 멀티태스크 지속 학습 전략을 통해 이러한 한계를 극복하고, 실제 임상 현장에 적용 가능한 고신뢰 AI 시스템을 구축하는 데 CT‑Bench가 핵심 토대가 될 것으로 기대된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기