- Title: Scale-aware Adaptive Supervised Network with Limited Medical Annotations
- ArXiv ID: 2601.01005
- 발행일: 2026-01-02
- 저자: Zihan Li, Dandan Shan, Yunxiang Li, Paul E. Kinahan, Qingqi Hong
📝 초록
우리는 제한적인 어노테이션 조건에서도 성능을 향상시키기 위해 SASNet, 즉 이중 분기 반감독 세분화 네트워크를 제안합니다. 스케일 인식 적응 가중 전략은 선택적으로 픽셀 단위 결과를 합쳐 더 신뢰할 수 있는 집합 예측을 생성합니다. 또한 관점 변동 증강 메커니즘은 다양한 관점과 스케일에 따른 어노테이션 차이를 시뮬레이션하여 견고성과 세분화 정확도를 향상시킵니다.
💡 논문 해설
1. **새로운 분할 네트워크 SASNet:** 이는 다양한 분기에서 얻은 픽셀 단위 결과를 최적화하는 스케일 인식 적응 가중 전략을 도입합니다. 이를 통해 신뢰할 수 있는 집합 예측을 생성합니다.
2. **관점 변동 증강 메커니즘:** 이는 다중 스케일 분기와 연계되어 어노테이션 변화를 모사합니다. 이 증강은 반감독 학습의 견고성을 향상시키며, 세분화 성능을 높입니다.
3. **성능 평가:** SASNet은 LA 데이터셋, Pancreas-CT 데이터셋 및 BraTS 데이터셋에서 기존 반감독 방법보다 우수한 성능을 보였으며, 전반적인 감독 방법과 비교할 수 있는 결과를 도출했습니다.
간단 설명:
SASNet은 제한된 어노테이션에서도 좋은 성능을 내는 새로운 분할 네트워크입니다. 이는 스케일 인식 적응 가중 전략을 사용해 다양한 분기에서 얻은 예측 결과를 합쳐 더 정확한 예측을 만듭니다. 또한 관점 변동 증강 메커니즘은 어노테이션의 차이를 모사하여 네트워크의 견고성을 높입니다.
비교적 쉽게:
SASNet은 작은 양의 데이터로도 좋은 결과를 내는 네트워크입니다. 이를 통해 복잡한 이미지에서 중요한 부분을 정확하게 찾아냅니다. 이는 여러 관점에서 이미지를 보고 합쳐서 더 정확한 예측을 만드는 방식으로 작동합니다.
Sci-Tube 스타일:
SASNet은 반감독 학습에 있어서 혁신적인 접근법입니다. 스케일 인식 적응 가중 전략은 네트워크가 다양한 분기에서 얻은 정보를 최적화하여 더 정확한 예측을 생성합니다. 관점 변동 증강 메커니즘은 어노테이션의 다양성을 모사하고, 이는 반감독 학습의 성능을 크게 향상시킵니다.
📄 논문 발췌 (ArXiv Source)
/>
우리는 제한된 어노테이션 조건에서도 성능을 향상시키기 위해 SASNet, 즉 이중 분기 반감독 세분화 네트워크를 제안합니다. 스케일 인식 적응 가중 전략은 선택적으로 픽셀 단위 결과를 합쳐 더 신뢰할 수 있는 집합 예측을 생성합니다. 관점 변동 증강 메커니즘은 다양한 관점과 스케일에 따른 어노테이션 차이를 시뮬레이션하여 견고성과 세분화 정확도를 향상시킵니다.
반감독 학습, 의료 이미지 분할, 스케일 인식 학습
Introduction
의료 이미지 분할에서 반감독 학습은 고품질의 밀도 어노테이션이 비싸고 제한적이기 때문에 중요합니다. 동시에 어노테이션 수준의 차이로 인해 도메인 오프셋이 발생하여 사용 가능한 라벨 정보가 줄어들 수 있습니다. 이에 따라 최근 몇 년 동안 많은 연구자들이 반감독 학습을 의료 이미지 분할과 결합하려는 시도를 시작했습니다. Chaitanya 등은 모델이 대상 특징을 학습하고 더 나은 의사 라벨을 생성하도록 돕기 위해 로컬 대비 손실을 설계하였습니다. 또한, 많은 연구자들은 손실 함수에 정규화 항목을 도입하여 반감독 학습의 성능을 향상시키는 것을 연구하기 시작했습니다. Luo 등은 CNN과 Transformer 구조를 활용해 이미지의 다양한 특징을 학습하고 예측 결과로 상호 감독하는 통합 프레임워크를 구성하였습니다. You 등은 두 네트워크의 예측 결과 사이의 비교 손실을 계산하기 위해 교사 네트워크와 학생 네트워크를 사용하였습니다. 동시에, 연구자들은 의료 이미지 분할의 성능을 향상시키기 위해 다중 스케일 학습을 활용하려는 시도를 하고 있습니다. Liu 등은 인코더에 다양한 스케일의 데이터를 입력하고 디코더에서 다양한 스케일의 예측 결과를 출력하였습니다. Wang 등은 다중 스케일 융합 모듈을 개발하여 경로 합성곱을 통해 다양한 스케일의 공간 정보를 융합하도록 도왔습니다. 하지만 연구자들은 반감독 학습에서 다중 스케일 학습의 역할을 간과하는 경우가 많았기 때문에, 우리는 새로운 스케일 인식 적응 학습 패러다임을 설계하고 이를 혁신적으로 반감독 학습에 도입하였습니다.
style="width:70.0%" />
이중 분기 네트워크에서 다양한 분기 네트워크와 다중 관점 입력 사이의 분할 결과 비교. 이중 분기 네트워크 구조는 세부 사항에서 더 나은 성능을 보이며, 저수준 분기 및 고수준 분기 접근법보다 진실 값에 더 가깝습니다. 또한 우리의 모델은 다양한 관점에서 서로 다른 예측 스타일을 나타내며, 이는 어노테이션 간의 자연스러운 변동과 유사합니다.
우리가 위에서 언급한 것처럼 반감독 의료 이미지 분할에는 아직 해결되지 않은 많은 문제가 있습니다. 첫째로, 라벨 부족의 도전은 여전히 중요한 문제입니다. 반감독 방법이 전반적인 감독 접근법에 비해 성능이 더 낮기 때문입니다. 특히 작은 대상과 경계의 분할은 아직 최적화되지 않았으므로 우리는 데이터에서 다중 스케일 정보를 추가로 탐색하기로 결정했습니다. 다양한 스케일의 특징 정보를 통합하면 모델이 작은 목표를 식별하고 분할 경계를 세밀하게 조정하는 능력이 향상됩니다. 둘째로, 어노테이션 변동 문제는 의료 영상 분야에서 고유한 도전 과제입니다. 어노테이션의 차이는 제한된 라벨 데이터의 도전을 더욱 악화시킵니다.
위의 문제를 해결하기 위해 우리는 스케일 불변성을 기반으로 한 적응적 감독 계층 네트워크를 제안합니다. 구체적으로 다중 스케일 정보 학습 능력을 향상시키기 위해 두 가지 다른 분기를 설계하였습니다. 하나는 저수준 특징에 초점을 맞추고, 다른 하나는 고수준 특징에 집중합니다. 이전의 다중 스케일 학습 네트워크와 달리 우리는 다양한 스케일 데이터를 서로 다른 인코더에 입력하는 대신 다양한 스케일 인코딩 특징을 서로 다른 디코더에 입력합니다. 이렇게 하면 고품질의 인코딩 특징을 얻을 수 있습니다. 또한, 다양한 스케일의 인코딩 특징을 직접 활용하면 다양한 스케일에서 정보를 더 직관적으로 사용하고 공통 관심 영역을 보여줄 수 있습니다(그림 1 참조). 이를 스케일 불변성이라 부릅니다. 이 그림은 저수준과 고수준 특징이 각각 분리되어 사용되며, 예측 연결 정보를 무시한다는 것을 보여줍니다. 둘을 동시에 사용하면 대상의 정확한 위치를 찾고 모델에 더 많은 의미론적 정보를 부여할 수 있습니다. 그림 1에서 보듯이 우리의 모델은 다양한 관점에서 서로 다른 예측 스타일을 나타내며, 이는 어노테이션 간의 자연스러운 변동과 유사합니다. 제한된 라벨 데이터를 활용하여 모델의 견고성을 향상시키는 것이 목표입니다.
위의 도전 과제에 대응하기 위해, 두 가지 분기의 결과를 통합해 더 포괄적이고 정확한 분할을 달성하는 자연스러운 고려사항이 있습니다. 그러나 두 결과를 단순히 더하면 원치 않는 잡음을 소개하고 전체 성능을 저하시킬 수 있습니다. 따라서 우리는 스케일 인식 적응 가중(SAR) 전략을 도입합니다. 이 접근법은 학습 과정에서 이전 에폭에서 얻은 신뢰도에 기반하여 두 분기의 예측 결과를 픽셀 단위로 가중화하는 것입니다. 이 적응 메커니즘은 네트워크가 더 신뢰할 수 있는 결과를 선택적으로 선호하도록 하여 직접적인 합산을 통해 발생할 수 있는 잠재적 오류를 완화합니다. SAR 전략의 도입은 융합 과정을 정교하게 제어하고 전체 분할 성능을 크게 향상시킵니다.
어노테이션 변동 문제를 해결하기 위해 우리는 어노테이션 차이를 시뮬레이션하는 관점 변동 증강 접근법을 도입합니다. 그림 1에서 보듯이 입력의 관점을 변경하여 동일 샘플의 다양한 관점에서 세분화 결과를 출력하도록 모델을 허용합니다. 또한 우리는 다양한 스케일의 분기에서 얻은 세분화 결과를 어노테이션 차이로 간주합니다. 이 관점 변동 증강 전략은 어노테이션에 다양성을 도입하여 서로 다른 시각으로 미묘한 관점을 포착합니다. 다양한 스케일과 관점에서의 보완적인 정보를 통합함으로써 우리의 접근법은 어노테이션 내재적 변화를 종합적으로 반영합니다.
전반적으로, 우리는 새로운 반감독 학습 방법을 제안하며 적응 학습과 상호 감독 학습을 통합하고 관점 변동 증강을 통해 어노테이션 변동의 도전에 대응합니다. 주요 기여는 다음과 같습니다:
스케일 인식 적응 가중 전략을 혁신적으로 도입한 새로운 분할 네트워크 SASNet을 제안하여 다양한 분기에서 얻은 픽셀 단위 결과를 최적화하고 더 신뢰할 수 있는 집합 예측을 생성합니다.
관점 변동 증강 메커니즘을 다중 스케일 분기와 연계시켜 어노테이션 차이를 효과적으로 모사합니다. 이 증강은 반감독 학습의 견고성을 향상시키며, 모델의 세분화 성능을 높입니다.
SASNet과 다른 최신 방법들을 LA 데이터셋, Pancreas-CT 데이터셋 및 BraTS 데이터셋에서 평가했습니다. 결과는 SASNet이 기존 반감독 방법보다 우수한 성능을 보였으며, 전반적인 감독 방법과 비교할 수 있는 성능을 달성하였습니다.
style="width:80.0%" />
SASNet 개요. SASNet은 세 가지 핵심 구성 요소로 구성됩니다: 이중 분기 아키텍처 네트워크, 관점 변동 증강 메커니즘 및 스케일 인식 적응 가중 전략입니다. FT와 IFT는 각각 3D 푸리에 변환과 3D 역 푸리에 변환을 나타냅니다. SASNet의 학습은 PLC 손실, SRC 손실 및 SEG 손실 하에서 이루어집니다.
관련 연구
반감독 학습
전통적인 반감독 학습 방법은 자체 훈련과 일관성 정규화로 나눌 수 있습니다. 자체 훈련은 라벨 데이터를 사용하여 모델을 훈련시킨 후 고신뢰도의 의사 라벨을 무라벨 데이터에 대해 예측하는 방식으로 반감독 모델의 성능을 개선합니다. Chaitanya 등은 로컬 대비 손실을 설계하여 모델 자체 학습 중 생성된 의사 라벨로부터 세분화에 유리한 특징을 학습했습니다. Adiga 등은 미세구조를 고려하는 프레임워크를 제안해 무라벨 데이터를 활용할 수 있도록 했습니다. Ma 등은 이질적인 출처에서 라벨과 무라벨 데이터 사이의 격차를 메우기 위해 중간 도메인 전략을 도입했습니다. Qi 등은 클래스 불균형 문제에 대응하기 위해 클래스 빈도에 기반해 그래디언트 업데이트를 적응적으로 수정하는 프레임워크를 개발하였습니다.
최근 의료 이미지 분할 연구에서는 다양한 시각화 방법을 활용하여 무라벨 데이터를 활용하는 협업 메커니즘과 유연한 패러다임을 탐구하고 있습니다. Zeng 등은 네트워크 구성 요소 간 양방향 지식 교환을 가능하게 하는 상호 작용 프레임워크를 도입하였습니다. 그들의 후속 연구는 다양한 해부학적 구조를 적응적으로 세분화하기 위해 통합 아키텍처 디자인을 통해 유연한 패러다임을 제안하였습니다. PICK 프레임워크는 신뢰할 수 있는 의사 라벨을 선택적으로 활용하는 예측 마스킹 전략을 사용합니다. 이러한 접근법은 협업 학습과 적응적 마스킹을 통해 흥미로운 결과를 보여주지만, 우리의 방법론과 몇 가지 중요한 측면에서 근본적으로 다릅니다. 상호 작용 메커니즘이 대칭 지식 교환에 의존하는 반면, 우리의 스케일 인식 적응 가중(SAR) 전략은 이전 에폭의 성능 매트릭스를 기반으로 픽셀 단위 예측을 동적으로 조정하는 비대칭, 신뢰도 주도 가중을 도입합니다. 또한 우리의 접근법은 뷰 변동 증강을 위해 3D 푸리에 영역 변환을 고유하게 통합하여 전통적인 데이터 증식 대신 주파수 영역 조작을 통해 어노테이션 다양성을 시뮬레이션합니다.
일관성 학습
일관성 정규화 프레임워크에서, 기존 방법은 다양한 데이터 증강에 대한 모델 예측의 일치를 강제하여 모델의 일반화 능력을 향상시킵니다. Yu 등은 변환 일관성을 통합해 성능을 개선하는 불확실성 지향 Mean Teacher 프레임워크를 제안하였습니다. Luo 등은 불확실성 수정을 도입한 피라미드 일관성 정규화 프레임워크를 소개하여 기본 세분화 네트워크를 확장하고 다중 스케일 일관성 손실을 사용해 동일 입력에 대한 다양한 스케일에서의 예측 일치성을 보장하도록 하였습니다. Bai 등은 라벨 데이터와 무라벨 데이터를 결합하는 목적으로 단순 Mean Teacher 프레임워크 내에서 양방향 복사-붙여넣기 방법을 제안하였습니다. 이를 통해 모델은 경험적 분포 간의 차이를 줄이고 무라벨 데이터가 라벨 데이터로부터 통합된 공통 의미론을 학습하도록 장려합니다.
불확실성 참여 컨텍스트 일관성 학습 접근법은 예측 신뢰도에 따라 일관성 손실을 적응적으로 가중하는 복잡한 불확실성 정량화 방법을 도입하여 어떻게 불확실성 추정이 의사 라벨의 신뢰성을 향상시킬 수 있는지를 보여줍니다. 최근 스테레오 비전 응용 분야에서는 확실성 추정과 주요 작업 학습을 분리-결합 패러다임으로 처리하며, 세심히 설계된 결합 메커니즘을 통해 아키텍처의 통합성을 유지하는 연구가 진행되었습니다. 다중 제약 일관성 학습 프레임워크는 다양한 의미론적 및 공간적 스케일에서 작동하는 다양한 일관성 목표를 도입하여 반감독 훈련을 위한 견고한 최적화 풍경을 창출합니다. 이러한 발전은 불확실성 인식 학습과 다목적 일관성 최적화에 중요한 전례를 설정합니다. 그러나 우리의 제안한 스케일 인식 적응 가중(SAR) 전략은 기존의 불확실성 참여 프레임워크를 넘어서는 독특한 혁신을 도입하였습니다. 정적인 불확실성 가중화 방식과 달리, SAR은 학습 에폭 간에 시간적 신뢰도 누적을 사용하여 장기 예측 신뢰성 패턴을 포착하는 동적 픽셀 단위 가중 행렬을 생성합니다.
다중 스케일 의료 이미지 분할
의료 이미지에는 다양한 스케일에서 병변 특징을 포착하도록 모델을 독려하기 위해 풍부한 노이즈와 복잡한 형태가 포함되어 있습니다. 기존 다중 스케일 의료 이미지 분할 방법은 서로 다른 계층 간의 다중 스케일 방법과 동일 계층 내의 다중 스케일 방법으로 구분됩니다. 서로 다른 계층 간의 다중 스케일 방법에서는 일반적으로 서로 다른 계층 간의 문맥 정보를 학습합니다. Luo 등은 다양한 스케일에서의 세분화 예측 및 그 평균 값 사이의 차이를 최소화하여 무라벨 데이터를 학습하는 피라미드 예측 네트워크를 구성하였습니다. Liu 등은 인코더 각 계층에 서로 다른 스케일의 샘플을 입력하고 디코더 부분에서 다양한 스케일의 특징을 출력해 깊이 감독을 수행하였습니다. 동일 계층 내의 다중 스케일 방법에서는 일반적으로 확장 합성곱 또는 피라미드 풀링을 사용하여 이미지의 다양한 스케일의 특징을 학습합니다. Wang 등은 UNet에 다중 스케일 배경 융합 모듈을 삽입하여 서로 다른 스케일에서의 공간 정보를 융합하도록 도왔습니다. 그러나 위에서 언급한 방법들은 인코더에서만 다중 스케일 융합을 수행합니다. 우리의 작업에서는 적응 학습을 활용해 다양한 스케일에서의 예측에 대한 스케일 인식 적응 가중 통합을 수행합니다.
style="width:45.0%" />
스케일 인식 적응 가중(SAR) 프레임워크의 세부사항.