라만스펙트럼 기반 암 진단을 위한 해석가능 딥러닝, RamanSeg

본 논문은 라만 분광법을 이용한 조직 이미지의 암 진단을 목표로, 기존의 색소 염색 기반 병리학을 대체하거나 보완할 수 있는 비침습적·무표지(stain‑free) 접근법을 제시한다. 연구팀은 EU‑funded CHARM 프로젝트의 일환으로, 편평세포암(SCC) 환자 10명으로부터 32개의 FFPE 슬라이스를 채취하고, 최신 Stimulated Raman Microscopy(SRM) 시스템을 이용해 C‑H 스트레칭 영역(2802–3094 cm⁻¹)에서 21개의 라만 채널을 동시에 측정하였다. 이와 함께 동일 슬라이스에 대해 전통적인 H&E 염색 이미지를 획득하고, QuPath를 통해 종양·괴사 영역을 전경, 나머지 조직을 배경으로 라벨링하였다. 최종 데이터는 (N, C, H, W) 형태의 21‑채널 스펙트럼 이미지와 전경/배경 마스크 쌍으로 구성되었다. 데이터 전처리에서는 각 라만 채널을 5~95 백분위수 기준으로 0–1 정규화하고, TPEF·SHG 등 보조 채널은 1~99 백분위수로 정규화하였다. 또한 H&E 이미지 기반 k‑means 클러스터링을 통해 전경 픽셀을 식별하고, 전경 평균 스펙트럼을 이용해 광학적 강도 드리프트를 보정하였다. 이렇게 정제된 데이터는 모델 학습 시 동일 환자 내 샘플이 같은 데이터 분할(학습/검증/테스트) 내에 포함되지 않도록 그룹화하여 데이터 누수를 방지하였다. 베이스라인 모델로는 두 가지를 사용했다. 첫 번째는 직접 구현한 U‑Net(4개의 다운샘플링 레이어, Dice loss, AdamW, learning rate = 1e‑4, weight decay = 1e‑3)이며, 두 번째는 nnU‑Net 프레임워크를 활용한 Residual Encoder‑based U‑Net(7개의 다운샘플링 단계, patch size = 576×448, Dice + CrossEntropy loss, SGD, learning rate = 1e‑4, momentum = 0.99)이다. nnU‑Net은 5‑fold 교차검증을 수행했으며, 최종 앙상블 결과 전경 Dice 평균 80.9% ± ?를 기록, 기존 2‑피크 데이터셋(72%)보다 크게 향상되었다. 본 연구의 핵심 기여는 프로토타입 기반 해석가능 모델인 RamanSeg의 설계와 두 가지 변형(프로토타입 투영 포함/미포함)이다. RamanSeg는 ProtoPNet과 ProtoSeg의 아이디어를 차용해, CNN으로 추출된 잠재 피처 맵에 M개의 프로토타입을 배치하고, 각 픽셀에 대해 프로토타입과의 유사도(거리) 값을 계산한다. 이 유사도 맵은 바로 클래스별 확률 맵으로 변환되며, 별도의 디코더 없이 bilinear upsampling을 통해 원본 해상도(H×W)로 복원한다. 따라서 ‘bottleneck hypothesis’를 검증하기 위해 다양한 다운샘플 크기(512→32→4)에서 Dice를 측정했으며, 32×32 이하에서도 0.84 이상의 Dice를 유지해, 잠재 맵 자체가 충분히 풍부한 공간 정보를 담고 있음을 확인했다. ProtoSeg에서 사용되던 KL‑divergence 기반 프로토타입 다양성 손실은 계산 비용이 높아 실제 적용이 어려웠다. 이를 해결하기 위해 논문은 ‘activation overlap loss’를 제안했으며, 클래스별 프로토타입 유사도 벡터를 평탄화한 뒤 내적을 합산해 중복을 억제한다. 이 손실은 식 (1)과 같이 정의되며, 전체 손실 함수는 α·CrossEntropy + β·ActivationOverlap + γ·L1 형태로, α,β,γ는 실험적으로 조정하였다. 프로토타입 수에 대한 탐색 실험에서는 클래스당 20~200개까지 변화를 주었고, Optuna 기반 하이퍼파라미터 최적화 결과 최적값은 클래스당 15개였다. 이는 이진 픽셀 분류에서 충분히 다양한 조직 패턴을 포착하면서도 과도한 파라미터 증가를 방지하는 균형점이다. ‘Projection‑free RamanSeg’는 프로토타입을 훈련 샘플에 강제로 매핑하는 단계(프로젝션)를 생략하고, 대신 프로토타입 차원을 (64, 3, 3)으로 확대해 보다 복합적인 스펙트럼 패턴을 학습하도록 설계했다. 또한 클래스당 프로토타입 수를 60개로 늘리고, 추가 Conv2D 레이어의 채널 수를 128, dropout 비율을 0.5로 설정했다. 손실 함수는 Dice + CrossEntropy를 결합했으며, 이 변형은 U‑Net(66.7 ± 15.4)보다 높은 Dice 67.3 ± ?를 달성했다. 프로젝션을 포함한 버전보다 약간 낮은 성능이지만, 프로토타입 유사도 맵을 통해 어느 정도 해석가능성을 유지한다. 성능 평가 외에도 모델의 해석가능성을 논의했다. 프로토타입 기반 모델은 각 픽셀에 대해 가장 유사한 프로토타입을 시각화함으로써, 해당 스펙트럼 패턴이 지방, 콜라겐, 핵산 등 특정 화학적 성분과 연관되는지를 직관적으로 파악할 수 있다. 반면 nnU‑Net은 Grad‑CAM 등 사후 분석에 의존해야 하며, 임상 현장에서 의사에게 신뢰를 제공하기 어렵다. 논문의 제한점으로는 데이터셋 규모가 작고, 환자당 샘플 수가 제한적이며, 이진 분류에 머물렀다는 점을 들 수 있다. 다중 클래스(정상, 전암, 암, 괴사 등) 확장은 클래스 불균형과 프로토타입 수 조정이 필요하다. 또한 라만 스펙트럼은 노이즈에 민감하므로, 실시간 임상 적용을 위해 하드웨어 가속 및 잡음 억제 전처리 기술이 추가로 요구된다. 결론적으로, 본 연구는 라만 스펙트럼을 활용한 조직 세분화에서 높은 정확도와 모델 해석가능성을 동시에 달성한 최초의 사례를 제시한다. 향후 대규모 멀티센터 데이터와 다양한 암 유형에 대한 검증이 이루어진다면, 라만 기반 디지털 병리학이 실제 임상 워크플로우에 통합되는 데 크게 기여할 것으로 기대된다.

라만스펙트럼 기반 암 진단을 위한 해석가능 딥러닝, RamanSeg

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기