스펙트럼 이중 풀링과 동적 컨텍스트 어텐션을 활용한 하이퍼스펙트럴 이미지 분류 DSXFormer
초록
본 논문은 고차원 스펙트럼 정보를 효율적으로 활용하기 위해 이중 풀링 기반 스펙트럼 압축·확장(DSX) 블록과 윈도우 기반 동적 컨텍스트 어텐션(DCA) 메커니즘을 결합한 트랜스포머 구조인 DSXFormer를 제안한다. DSX 블록은 전역 평균 풀링과 전역 최대 풀링을 동시에 적용해 스펙트럼 채널을 재조정하고, DCA는 지역 윈도우 내에서 위치 정보를 고려한 어텐션을 수행해 계산량을 크게 줄인다. 네 개의 대표적인 하이퍼스펙트럴 데이터셋(IP, SA, PU, KSC)에서 기존 최첨단 방법들을 능가하는 정확도(99.95%~98.52%)를 달성하였다.
상세 분석
DSXFormer는 하이퍼스펙트럴 이미지(HSI)의 고차원 스펙트럼 특성을 효과적으로 모델링하기 위해 두 가지 핵심 모듈을 설계하였다. 첫 번째인 Dual‑Pooling Spectral Squeeze‑Expansion(DSX) 블록은 입력 토큰(패치 임베딩) (F\in\mathbb{R}^{N\times d})에 대해 전역 평균 풀링(GAP)과 전역 최대 풀링(GMP)을 동시에 수행한다. GAP는 전체 스펙트럼 분포를 요약해 평균적인 채널 중요도를 파악하고, GMP는 가장 강렬한 스펙트럼 반응을 강조한다. 두 풀링 결과를 합산한 (\mathbf{z}= \mathbf{z}{avg}+\mathbf{z}{max})는 이후 두 개의 완전 연결층으로 구성된 가벼운 게이팅 네트워크에 입력되어 비선형 변환을 거친다. 여기서 채널 차원을 확장(expansion)하고 다시 압축(compression)함으로써, 중요한 스펙트럼 밴드에 높은 가중치를 부여하고 불필요한 밴드는 억제한다. 이 과정은 Squeeze‑Excitation(SE)와 유사하지만, 평균·최대 풀링을 동시에 활용해 보다 풍부한 전역 통계 정보를 반영한다는 점에서 차별화된다.
두 번째 핵심인 Dynamic Context Attention(DCA)는 Swin‑Transformer와 유사한 윈도우 기반 자기‑어텐션 구조를 채택한다. 고정 크기 (M\times M) 윈도우 내에서 토큰 간 상호작용을 수행하되, 상대 위치 인코딩과 유사도 기반 컨텍스트 스케일링을 도입해 각 토큰이 주변 컨텍스트를 동적으로 가중한다. 이렇게 하면 전역적인 자기‑어텐션이 갖는 높은 계산 복잡도((O(N^2)))를 피하면서도, 지역적인 스펙트럼‑공간 관계를 정밀하게 포착한다. 또한, 윈도우를 교차 시프트(shift)하는 전략을 적용해 인접 윈도우 간 정보 교환을 가능하게 하여, 전체 이미지에 대한 장거리 의존성을 단계적으로 학습한다.
전체 아키텍처는 패치 추출 → 패치 임베딩 → DSX 블록 → 다중 레벨 DCA 트랜스포머 인코더 → 패치 병합 → 최종 분류 헤드 순으로 구성된다. 패치 병합 단계에서는 공간 해상도를 절반으로 낮추고 채널 차원을 두 배로 늘려, 다중 스케일 특성을 효율적으로 학습한다. 최종 레이어에서는 전역 평균 풀링 후 완전 연결층을 통해 각 패치(또는 픽셀)의 클래스 확률을 출력한다.
실험에서는 4개의 벤치마크 데이터셋(IP, SA, PU, KSC)에서 학습 샘플 수를 제한한 상황에서도 높은 정확도를 유지한다. 특히, Salinas 데이터셋에서 99.95%의 전체 정확도(OA)를 기록했으며, 이는 기존 CNN‑기반 3D‑CNN, ResNet, 그리고 최신 Vision‑Transformer 기반 모델들을 모두 앞선 결과이다. 파라미터 수와 FLOPs 측면에서도 DSXFormer는 경량 설계 덕분에 경쟁 모델보다 효율적이며, 제한된 라벨 데이터에서도 과적합 위험이 낮다.
요약하면, DSXFormer는 (1) 스펙트럼 채널을 정교하게 재조정하는 DSX 블록, (2) 계산 효율성을 유지하면서 지역 컨텍스트를 동적으로 포착하는 DCA, (3) 다중 스케일 패치 병합을 통한 깊이 있는 특성 학습이라는 세 축을 결합해, 하이퍼스펙트럴 이미지 분류에서 정확도와 효율성 모두를 크게 향상시킨다.
댓글 및 학술 토론
Loading comments...
의견 남기기