비디오 캡슐 내시경 데이터 라벨 오류 탐지와 정제
초록
본 논문은 비디오 캡슐 내시경(VCE) 데이터셋의 라벨 오류를 자동으로 탐지하고 정제하는 프레임워크를 제안한다. Gaussian Mixture Model(GMM)과 모바일 친화적인 CNN(MobileNetV3)을 결합해 라벨 노이즈를 추정하고, 오류가 의심되는 샘플을 교정하거나 제거한다. Kvasir‑Capsule 데이터에 인위적으로 삽입한 노이즈로 파이프라인을 검증하고, 실제 Galar 데이터셋에 적용한 뒤 3명의 위장내시경 전문의가 재검토한 결과, 라벨 정제 후 이상 탐지 성능이 기존 베이스라인보다 크게 향상됨을 확인하였다.
상세 분석
이 연구는 의료 영상 분야, 특히 저해상도와 높은 클래스 불균형을 특징으로 하는 비디오 캡슐 내시경(VCE) 데이터에서 라벨 오류가 모델 일반화에 미치는 부정적 영향을 최소화하기 위한 체계적인 접근법을 제시한다. 핵심 아이디어는 두 단계로 구성된 파이프라인이다. 첫 번째 단계에서는 원시 데이터에 대해 MobileNetV3 기반 CNN을 세 번 독립적으로 학습하고, 각 에포크와 학습 과정에서 얻은 손실값을 평균하여 샘플별 불확실성 점수를 산출한다. 이때 focal loss를 적용해 클래스 불균형을 보정한다. 두 번째 단계에서는 이러한 손실 분포를 3‑component Gaussian Mixture Model(GMM)로 모델링한다. GMM의 가장 높은 평균을 갖는 컴포넌트는 라벨이 잘못된 샘플, 가장 낮은 평균은 정상 라벨을 가진 샘플, 중간값은 학습이 어려운 경계 샘플로 해석한다. 각 샘플에 대해 GMM이 할당한 확률 p_i를 라벨 오류 확률로 정의하고, 기존 CNN 예측 신뢰도와 결합해 교정 가능성(p_c_i)을 계산한다. 이후 p_i−p_c_i가 큰 상위 k_c 샘플을 라벨을 반전(이진 경우)하거나 다중 라벨 경우 재할당하여 교정하고, 추가적인 CNN‑GMM 학습을 거쳐 p_i가 가장 높은 상위 k_f 샘플을 데이터셋에서 제거한다.
실험 설계는 두 데이터셋에 대해 차별적으로 진행된다. Kvasir‑Capsule에서는 1 %‒20 % 수준의 라벨 플립을 인위적으로 삽입해 ‘그라운드 트루스’를 확보하고, 제안 파이프라인이 삽입된 라벨을 얼마나 정확히 복구하는지 정량적으로 평가한다. 결과는 5 % 노이즈 상황에서 2262/2360(≈95.9 %)의 라벨을 정확히 탐지했으며, 10 % 노이즈에서도 4355/4722(≈92.2 %)를 탐지하는 높은 검출률을 보였다.
Galar 데이터셋에 대한 실제 적용에서는 라벨 오류가 사전 검증되지 않은 상태였으므로, 파이프라인이 추정한 상위 500개 샘플 중 100개를 무작위로 선정해 3명의 위장내시경 전문의가 재검토하였다. 이 과정에서 다수의 라벨이 수정되었으며, 수정된 데이터셋으로 다시 학습한 CNN은 원본 데이터셋 대비 F1‑score가 크게 상승했다(예: 폴립 검출 F1 5 % → 37 % 수준). 이는 라벨 정제가 모델 성능에 직접적인 긍정적 영향을 미친다는 실증적 증거다.
또한, t‑SNE와 PCA를 활용한 잠재공간 시각화는 라벨 오류가 존재할 경우 정상과 이상 클래스가 혼재된 영역이 확대되는 반면, 정제 후에는 두 클래스가 보다 명확히 구분되는 것을 확인한다. 이는 GMM 기반 손실 클러스터링이 실제 이미지 특성의 분포와 잘 맞물려 라벨 오류를 효과적으로 포착함을 시사한다.
전체적으로 이 논문은 (1) 라벨 오류 탐지를 위한 손실 기반 GMM 모델링, (2) 불확실성 기반 교정·제거 전략, (3) 임상 전문가 검증을 통한 실용성 입증이라는 세 축을 결합함으로써, 저해상도 의료 영상 데이터의 품질을 향상시키고, 향후 임베디드 의료 AI 시스템의 신뢰성을 높이는 데 기여한다.
댓글 및 학술 토론
Loading comments...
의견 남기기