전체 폐 영상을 활용한 Transformer 기반 폐암 위험 예측 프레임워크 LungEvaty

초록

**
폐암 위험 추정은 저용량 CT(LDCT)를 이용한 국가 차원의 대규모 스크리닝 프로그램이 확대됨에 따라 점점 더 중요해지고 있다. 영상 데이터가 급증함에 따라 전체 폐 볼륨을 효율적으로 처리할 수 있는 확장 가능한 방법이 필요하다. 기존 방법은 픽셀 수준의 라벨에 과도하게 의존하거나 폐를 조각으로 나누어 분석해 성능이 저하되는 한계가 있다. 본 연구에서는 단일 LDCT 스캔만으로 1~6년 폐암 위험을 예측하는 완전 Transformer 기반 프레임워크인 LungEvaty를 제안한다. 모델은 전체 폐를 입력으로 받아 대규모 스크리닝 데이터에서 직접 학습함으로써 악성 위험과 관련된 해부학적·병리학적 신호를 포괄적으로 포착한다. 영상 데이터만을 사용하고 영역 수준의 감독이 없으며, 선택적으로 적용 가능한 Anatomically Informed Attention Guidance(AIAG) 손실을 통해 해부학적으로 집중된 어텐션을 유도한다. LungEvaty는 90,000건 이상의 CT 스캔(그 중 28,000건은 파인튜닝, 6,000건은 평가)으로 학습되었으며, 최첨단 성능을 달성한다. 본 프레임워크는 간단하고 데이터 효율적이며 완전 오픈소스 형태로 제공되어, 향후 종단적·다중모달 폐암 위험 예측 연구를 위한 확장 가능한 기반을 제공한다.

상세 요약

**
본 논문은 현재 전 세계적으로 확대되고 있는 저용량 CT(LDCT) 기반 폐암 스크리닝 프로그램의 데이터 규모와 특성을 고려했을 때, 실용적인 위험 예측 모델이 필요하다는 점을 명확히 제시한다. 기존의 위험 예측 접근법은 크게 두 가지 문제점을 가지고 있다. 첫째, 픽셀‑레벨 혹은 결절‑레벨 라벨에 의존하는 방법은 방대한 라벨링 작업을 요구하여 대규모 데이터셋에 적용하기 어렵다. 라벨링 비용과 시간은 스크리닝 프로그램이 확대될수록 병목 현상이 된다. 둘째, 폐를 여러 조각으로 나누어 개별적으로 분석하는 방식은 전체 폐 구조와 장기적인 병변 진행 양상을 포착하지 못해 예측 정확도가 제한된다.

LungEvaty는 이러한 한계를 극복하기 위해 Transformer 아키텍처를 전체 폐 볼륨에 직접 적용한다는 점에서 혁신적이다. Transformer는 자체적인 어텐션 메커니즘을 통해 장거리 의존성을 효율적으로 학습할 수 있기 때문에, 폐 전체의 해부학적 배치와 병변 간의 복합적인 상호작용을 포착하는 데 유리하다. 특히, 3D Vision Transformer(ViT) 변형을 사용해 고해상도 CT 데이터를 토큰화하고, 다중 스케일 어텐션을 통해 미세 결절부터 대형 종양까지 다양한 크기의 병변 정보를 동시에 고려한다.

주목할 만한 점은 모델이 전혀 영역 수준의 감독을 받지 않음에도 불구하고, 선택적으로 적용 가능한 Anatomically Informed Attention Guidance(AIAG) 손실을 통해 어텐션이 해부학적으로 의미 있는 영역에 집중되도록 유도한다는 것이다. AIAG는 폐의 주요 해부학적 구역(예: 폐엽, 기관지, 혈관)과 연관된 어텐션 맵을 사전 정의된 마스크와 비교해 손실을 계산함으로써, 모델이 무의미한 배경에 과도하게 주의를 기울이는 것을 방지한다. 실험 결과, AIAG를 적용했을 때 ROC‑AUC와 PR‑AUC가 유의미하게 향상되는 것으로 보고되어, 해부학적 사전지식이 딥러닝 모델의 일반화에 긍정적인 영향을 미친다는 점을 실증한다.

데이터 규모 역시 눈에 띈다. 90,000건 이상의 CT 스캔을 활용해 사전 학습(pre‑training)하고, 28,000건을 파인튜닝, 6,000건을 독립 평가에 사용함으로써 모델의 데이터 효율성을 검증한다. 특히, 파인튜닝 단계에서 라벨이 제한된 상황에서도 높은 성능을 유지한다는 점은 실제 임상 현장에서 라벨링 비용을 크게 절감할 수 있음을 시사한다.

성능 비교에서는 기존의 CNN‑기반 3D 모델이나 결절‑중심 접근법과 비교해 동일하거나 더 높은 AUC를 기록한다. 이는 전체 폐를 한 번에 처리하면서도 세밀한 병변 정보를 놓치지 않는 구조적 장점과, Transformer의 강력한 전역 컨텍스트 학습 능력이 결합된 결과라 할 수 있다.

하지만 몇 가지 한계도 존재한다. 첫째, Transformer는 메모리 소모가 크기 때문에 고해상도 전체 폐 볼륨을 처리하려면 토큰 수를 제한하거나 하드웨어 사양이 높아야 한다. 논문에서는 토큰 압축 기법을 적용했지만, 초고해상도 영상(예: 1 mm 이하 슬라이스)에서는 정보 손실 위험이 있다. 둘째, AIAG 손실을 적용하려면 사전 정의된 해부학적 마스크가 필요하며, 이는 다른 데이터셋이나 다른 스캔 프로토콜에 따라 재구성해야 할 수 있다. 셋째, 모델은 영상 데이터만을 사용하므로 환자의 흡연 이력, 유전적 요인 등 비영상 임상 정보를 통합하지 못한다는 점에서 다중모달 접근법에 비해 제한적이다.

향후 연구 방향으로는 (1) 메모리 효율성을 높이기 위한 하이브리드 CNN‑Transformer 구조, (2) 임상 메타데이터와 결합한 다중모달 위험 모델, (3) 전이 학습을 통한 다른 폐 질환(예: COPD, 폐섬유증) 예측 모델로의 확장, (4) 실제 스크리닝 파이프라인에 적용하기 위한 실시간 추론 최적화 등이 제시될 수 있다. 전반적으로 LungEvaty는 대규모 스크리닝 데이터에서 해부학적·병리학적 정보를 포괄적으로 학습할 수 있는 강력하고 확장 가능한 프레임워크로, 향후 폐암 위험 예측 연구와 임상 적용에 큰 파급 효과를 기대한다.

초록

상세 요약

📜 논문 원문 (영문)