다중센터 다중모달리티 NPC 방사선 치료 자동 분할 벤치마크 SegRap2025

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SegRap2025는 Nasopharyngeal Carcinoma(NPC) 치료를 위한 GTV와 LN CTV 자동 분할 모델의 일반화와 모달리티 강인성을 평가하는 대규모 다중센터·다중모달리티 벤치마크이다. Task 01은 기존 SegRap2023의 짝꿍 ncCT·ceCT 데이터를 활용해 내부·외부 테스트 세트에서 GTV 분할 성능을 측정하고, Task 02는 네 개 센터의 혼합 데이터(짝꿍·단일 모달리티)를 이용해 여섯 개 LN CTV 레벨을 분할한다. 10개 팀이 참가했으며, 내부 GTV DSC 평균 74.61 %·외부 56.79 %를 기록했고, LN CTV는 짝꿍 CT 60.24 %, ceCT‑only 60.50 %, ncCT‑only 57.23 %를 달성했다. 결과는 데이터 다양성·모달리티 결손 상황에서 모델 성능이 크게 변동함을 보여주며, 향후 임상 적용을 위한 일반화 전략과 반지도 학습 활용 필요성을 강조한다.

상세 분석

SegRap2025는 NPC 방사선 치료 계획에 필수적인 GTV와 LN CTV 자동 세분화 기술을 실제 임상 환경에 가깝게 검증하기 위해 설계된 두 단계의 챌린지이다. 첫 번째 Task 01은 SegRap2023에서 제공된 200명의 짝꿍 ncCT·ceCT 데이터를 재활용하면서, 추가로 외부 센터(DHCJ)에서 수집한 60명의 테스트 케이스를 포함한다. 이 구조는 모델이 동일 기관 내 데이터와 다른 기관 데이터 사이에서 얼마나 일반화되는지를 직접 측정할 수 있게 한다. 두 번째 Task 02는 네 개(삼성, Philips 등) 기관에서 수집된 260명의 훈련 데이터와, 보이지 않는 외부 기관(DHCJ)에서 제공된 50명의 테스트 데이터를 사용한다. 여기서는 짝꿍 CT뿐 아니라 단일 모달리티(ceCT‑only, ncCT‑only) 상황도 포함돼, 실제 임상에서 대비되는 스캔 프로토콜·장비 차이를 반영한다.

데이터 특성은 스캔 두께 2.5~~3 mm, 인‑플레인 해상도 512×512~~1024×1024, 전압 120 kV, 전류 200~380 mA 등 다양한 파라미터를 포함한다. 라벨링은 전문 방사선 종양학자가 수행했으며, GTV는 GTV p와 GTV nd 두 종류, LN CTV는 좌·우 각각 Ib, II+III+Va, IV+Vb+Vc 등 총 여섯 레벨로 정의했다. 또한 500개의 비라벨링 데이터가 제공돼 반지도 학습이나 도메인 적응 연구에 활용 가능하도록 설계되었다.

참가 팀은 공개된 사전학습 백본(ResNet, Swin‑Transformer 등)과 최신 세그멘테이션 프레임워크(UNet++, nnU-Net, Transformer‑based) 등을 자유롭게 조합했으며, 데이터 증강(강도 변환, 랜덤 크롭, 모달리티 교환)과 도메인 적응(엔트로피 최소화, 스타일 트랜스퍼) 기법을 적용했다. 그러나 외부 테스트에서 성능 저하가 두드러졌는데, 내부 테스트에서 평균 DSC 74.61 %였던 GTV 모델이 외부에서는 56.79 %로 급감했다. 이는 스캔 프로토콜·노이즈 차이와 라벨링 편차가 모델에 큰 영향을 미친다는 점을 시사한다. LN CTV의 경우, 짝꿍 CT와 ceCT‑only에서 비슷한 수준(≈60 %)의 DSC를 기록했지만, ncCT‑only에서는 57 %로 다소 낮았다. 이는 대비 차이가 큰 ncCT에서 미세 구조를 구분하기 어려워지는 현상으로 해석된다.

성능 분석에서는 Dice 외에도 Hausdorff Distance(HD)와 Average Surface Distance(ASD)를 함께 보고했으며, 특히 작은 LN CTV 레벨(예: Ib)에서 HD가 크게 늘어나는 경향을 보였다. 이는 작은 구조에 대한 불확실성이 모델에 남아 있음을 의미한다. 또한, 팀별 결과를 보면 사전학습된 대형 모델을 사용한 팀이 전반적으로 높은 DSC를 달성했지만, 연산 비용과 추론 시간에서 trade‑off가 존재했다.

이 논문은 다음과 같은 핵심 인사이트를 제공한다. 첫째, 다중센터·다중모달리티 데이터가 없을 경우 모델의 외부 일반화가 급격히 저하될 수 있다. 둘째, 모달리티 결손 상황을 대비해 단일 모달리티에서도 견고하게 작동하도록 설계된 멀티‑스트림 혹은 모달리티‑인코딩 전략이 필요하다. 셋째, 비라벨링 데이터를 활용한 반지도 학습이나 도메인 적응이 성능 향상의 잠재적 경로이며, 향후 연구에서 이를 체계적으로 평가할 필요가 있다. 넷째, 작은 LN CTV 레벨에 대한 정확한 분할을 위해 고해상도 로컬 피처와 전역 컨텍스트를 동시에 포착하는 하이브리드 구조가 요구된다. 마지막으로, 평가 지표를 다각화하고, 임상적 의미(예: 방사선 용량 계획에 미치는 영향)를 고려한 후속 연구가 필수적이다.

전반적으로 SegRap2025는 NPC 방사선 치료 자동화에 있어 데이터 다양성·모달리티 결손·라벨링 불확실성이라는 현실적인 문제들을 제시하고, 이를 해결하기 위한 연구 로드맵을 제시한다. 향후 대규모 멀티센터 협업과 반지도 학습, 도메인 적응 기술의 융합이 임상 적용 가능한 고신뢰도 모델 개발에 핵심이 될 것으로 기대된다.

다중센터 다중모달리티 NPC 방사선 치료 자동 분할 벤치마크 SegRap2025

초록

상세 분석

댓글 및 학술 토론

의견 남기기