양성·악성 유방암 진단을 위한 서명 라플라시안 기반 적대적 데이터 증강 딥러닝
본 논문은 유방암 유방촬영술 영상의 데이터 부족과 양성·악성 종양의 시각적 유사성을 극복하기 위해, 적대적 학습으로 양성(positive)과 음성(negative) 이웃 샘플을 생성하고, 이를 기반으로 서명 그래프 라플라시안을 구축한 뒤, 그래프 정규화와 분류 손실을 공동 최적화하는 DiagNet 프레임워크를 제안한다. INbreast 데이터셋 실험에서 정확도 93.4%와 AUC 0.95를 달성하며 기존 최고 성능을 능가한다.
저자: Heyi Li, Dongdong Chen, William H. Nailon
본 연구는 유방암 검진에 널리 사용되는 디지털 유방촬영술(mammography) 영상에서 양성·악성 종양을 정확히 구분하는 데 존재하는 두 가지 핵심 문제—데이터 부족과 양·악성 종양 간 시각적 유사성—를 해결하고자 한다. 이를 위해 저자들은 ‘DiagNet’이라 명명한 새로운 딥러닝 프레임워크를 설계했으며, 크게 세 단계로 구성된다.
첫 번째 단계는 적대적 데이터 증강이다. 기존 연구들은 회전·좌우반전 등 기하학적 변환이나 GAN을 이용해 온‑디스트리뷰션(양성) 샘플만을 생성해 왔지만, 이는 양·악성 사이의 경계 강화를 충분히 도와주지 못한다. 저자는 각 클래스(양성, 악성)에 대해 두 종류의 이웃 샘플을 만든다. Positive neighbor는 원본 데이터와 구별이 어려운 샘플로, 판별기가 이를 양성으로 분류하도록 학습한다. Negative neighbor는 판별기가 쉽게 구분할 수 있는 샘플로, 양성·악성 사이의 마진을 인위적으로 확대한다. 구체적으로, 클래스 c의 원본 데이터 X_c와 현재까지 생성된 Positive 이웃 X⁺_c, Negative 이웃 X⁻_c를 이용해 두 개의 SVM 판별기를 학습하고, 각 후보 샘플 x에 대해 P(x;X_c,X⁺_c)와 P(x;X_c,X⁻_c)를 계산한다. 이후 거리 정규화(γ·max(0, r‑d))를 적용해 최소·최대 거리 제약을 두고, 최적의 양·음 이웃을 선택한다. 이 과정은 파라미터 T=200, γ=10⁻², r₁=r₂=ρ, r₃=3ρ(ρ는 클래스 내 최소 거리)로 설정되었다. 결과적으로 원본 데이터에 20% 비율의 Positive 이웃과 20% 비율의 Negative 이웃을 추가해 전체 데이터량을 40% 확대한다.
두 번째 단계는 서명 그래프 라플라시안 정규화이다. 증강된 전체 데이터 X에 대해 각 샘플 i에 대해 n⁺개의 양성 이웃과 n⁻개의 음성 이웃을 찾아 연결한다. 양성 연결은 가중치 +1, 음성 연결은 -1로 부여해 φᵢⱼ를 정의한다. 라플라시안 정규화 항 J_g는 다음과 같이 설계된다. φᵢⱼ>0이면 dist(h(x_i),h(x_j))를 최소화하고, φᵢⱼ<0이면 max(0, m+φᵢⱼ·dist(...))를 최소화한다. 여기서 h(·)는 CNN의 마지막 은닉층(softmax 직전)에서 추출된 특징 벡터이며, dist는 코사인 거리, m은 마진(=1)이다. 이 정규화는 같은 클래스의 샘플을 잠재공간에서 가깝게, 다른 클래스는 최소 마진만큼 떨어지게 만든다.
세 번째 단계는 위 두 손실을 동시에 최적화하는 학습이다. 저자는 3×3 커널의 depth‑wise separable convolution을 기반으로 10개의 블록(첫 3개는 채널 128, 256, 728, 공간 크기 224→112→56, 이후 7개 블록은 28×28 크기와 728 채널 유지)을 쌓고, 전역 평균 풀링 후 3개의 1024‑노드 완전 연결층을 거쳐 softmax 출력층을 만든다. Dropout(0.5)과 L2 정규화(10⁻⁴)를 적용해 과적합을 방지하고, 잔차 연결을 통해 그래디언트 소실·폭주 문제를 완화한다. 최종 손실은 J=J_l+λJ_g이며, λ는 1로 설정하였다.
실험은 영국의 공개 데이터셋 INbreast(107개 종양 이미지)를 사용했다. 데이터는 80% 학습, 20% 테스트로 분할했으며, 종양 영역을 원본 ROI에 1.6배 패딩한 사각형으로 추출하였다. 증강 단계에서 원본에 대해 좌우·상하 반전과 함께 40% 비율의 적대적 이웃을 추가하였다. 그래프 구성 파라미터는 n⁺=1, n⁻=4가 최적이며, 이는 베이스라인(그래프 미사용) 대비 정확도가 최소 8%, AUC가 12% 향상된 결과와 일치한다. 최종 성능은 평균 정확도 93.4%±1.9, AUC 0.95±0.02로, 기존 최고 성능(예: Shams 2018, AUC 0.92; Li 2019, AUC 0.92)보다 유의미하게 우수했다.
논문의 주요 기여는 (1) 양·음 이웃을 동시에 생성해 클래스 간 마진을 명시적으로 확대한 적대적 증강 전략, (2) 서명 그래프 라플라시안을 활용해 잠재공간에서 구조적 일관성과 분류 경계를 동시에 강화한 정규화, (3) 기존 CNN에 비교적 간단히 통합 가능한 손실 설계이다. 한편, 제한점으로는 적대적 샘플 생성에 SVM 기반 판별기를 사용해 연산 비용이 높고, 단일 데이터셋에만 검증했으며, 다양한 촬영 장비·인구통계에 대한 일반화 검증이 부족한 점을 들 수 있다. 향후 연구에서는 멀티‑기관 데이터, 보다 효율적인 GAN 기반 이웃 생성, 동적 그래프 학습 등을 통해 확장성을 검증할 필요가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기