다목적 근골격 방사선 이미지 기반 대규모 파운데이션 모델 SKELEX
초록
SKELEX는 120만 장 이상의 다양한 근골격 방사선 사진을 활용해 마스크드 오토인코더 방식으로 사전학습한 파운데이션 모델이다. 12개의 진단 과제(골절 탐지, 골관절염 등)에서 기존 ResNet‑101·ViT‑L 대비 평균 2.4~3.9% 높은 성능을 보였으며, 라벨이 거의 없는 상황에서도 높은 정확도를 유지한다. 또한 재구성 오류를 이용한 제로샷 이상 부위 지도와 해부학적 영역을 고려한 다중 헤드 종양·골절 분류 프레임워크를 제시하고, 웹 서비스로 임상 적용 가능성을 입증하였다.
상세 분석
본 논문은 근골격 방사선 영상 분야에서 최초로 대규모 파운데이션 모델을 구축한다는 점에서 의미가 크다. 데이터 측면에서 저자들은 서울대병원에서 수집한 1,296,540장의 비라벨 이미지(SNUH‑1M)를 이용해 기존 공개 데이터셋이 갖는 해부학·질환 다양성의 한계를 극복하였다. 사전학습은 두 단계로 진행되는데, 첫 단계는 ImageNet‑1K 기반 MAE(마스크드 오토인코더)로 저수준 특징을 초기화하고, 두 번째 단계에서 근골격 전용 이미지에 대해 마스크 비율을 높인 상태로 재구성 손실을 최소화한다. 이 과정에서 모델은 정상 해부학적 패턴과 병변의 미세한 변화를 동시에 학습한다는 점이 핵심이다.
다운스트림 평가에서는 7개의 공개 데이터셋(FracAtlas, BTXRD, OAI 등)에서 12개의 과제에 대해 동일한 하이퍼파라미터와 학습 프로토콜을 적용하였다. 결과는 ResNet‑101(이미지넷‑1K 사전학습)과 ViT‑L/21K(이미지넷‑21K 사전학습) 대비 평균 AUROC가 각각 2.40%·3.89% 상승했으며, 특히 골종양 분류에서 0.954의 AUROC를 기록해 기존 모델(0.902~0.903)을 크게 앞섰다. 희소 라벨 상황에서도 10% 라벨만 사용해 동일 수준의 성능을 달성한 점은 라벨 효율성이 뛰어남을 보여준다.
특이한 기여는 ‘제로샷 오류 지도’이다. 마스크드 입력을 재구성한 뒤 원본과 차이를 픽셀 단위로 평균화하면, 정상 해부학과 차이가 큰 영역이 자동으로 강조된다. 이는 별도의 병변 라벨 없이도 골절, 종양, 골관절염 부위를 시각적으로 확인할 수 있게 하며, 정량적으로도 비정상 이미지에서 평균 오류가 유의하게 높았다.
또한 저자들은 SKELEX를 기반으로 해부학적 영역 검출 → 영역별 다중 라벨 분류라는 2단계 구조의 ‘Region‑guided Multi‑head’ 프레임워크를 설계했다. 해부학적 ROI를 먼저 식별하고, 각 ROI에 대해 종양·골절·임플란트 등 다중 클래스를 동시에 예측한다. 라벨 마스킹 전략을 도입해 데이터셋마다 존재하는 라벨 불일치를 완화했으며, 내부 교차검증과 외부 BTXRD‑Center2/3, Radiopaedia, MedPix 데이터에서 AUROC 0.95 이상을 유지했다. 특히 공개 데이터에 없는 라벨(예: 골절)까지 추론해 임상 보고서와 높은 일치도를 보인 점은 모델의 해석 가능성과 실용성을 강조한다.
마지막으로 웹 기반 인터페이스를 구현해 사용자가 방사선 사진을 업로드하면 자동으로 종양·골절 확률과 오류 지도를 제공한다. 이는 연구 단계에 머무르지 않고 실제 진료 현장에 적용 가능한 프로토타입을 제시한 것으로 평가된다.
전체적으로 SKELEX는 (1) 대규모 비라벨 근골격 영상으로 도메인 특화 사전학습, (2) 다양한 진단 과제에서 일관된 성능 향상, (3) 라벨 효율성 및 제로샷 이상 부위 탐지, (4) 해부학적 영역을 고려한 다중 라벨 해석 가능 모델, (5) 실제 임상 활용을 위한 웹 서비스 제공이라는 5가지 핵심 강점을 갖는다. 다만, 데이터가 주로 한국 내 단일 기관에서 수집되었으며, 외부 다국적 데이터에 대한 추가 검증이 필요하고, 마스크 비율·재구성 손실 등 하이퍼파라미터 최적화에 대한 상세 분석이 부족한 점은 향후 연구 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기