하이브리드 CNN Transformer 기반 빙하 전진선 분할의 새로운 도약
초록
AMD‑HookNet++은 저해상도 컨텍스트용 Transformer와 고해상도 디테일용 CNN을 각각 별도 브랜치에 배치하고, ESCA 모듈로 양쪽 특징을 공간·채널 차원에서 융합한다. 픽셀‑대‑픽셀 대비 학습을 깊이 감독에 도입해 정밀한 임베딩을 유도한다. CaFFe 데이터셋에서 IoU 78.2 %와 HD95 1,318 m, MDE 367 m를 달성하며, 기존 순수 Transformer 모델의 거친 경계 문제를 크게 완화한다.
상세 분석
AMD‑HookNet++은 기존 AMD‑HookNet이 제시한 두‑브랜치 U‑Net 구조를 그대로 유지하면서, 각 브랜치에 서로 다른 네트워크 패러다임을 적용한다는 점에서 혁신적이다. 컨텍스트 브랜치는 저해상도 입력을 받아 Vision Transformer 기반의 슬윈‑Transformer 블록을 사용해 전역적인 장거리 종속성을 모델링한다. Transformer의 자체‑어텐션은 넓은 수용 영역을 제공하지만, 데이터가 제한적인 빙하 SAR 이미지에서는 과적합 위험이 크다. 이를 보완하기 위해 고해상도 타깃 브랜치에서는 전통적인 CNN(예: ResNet‑style 인코더와 디코더)으로 세밀한 경계와 텍스처 정보를 보존한다.
두 브랜치 사이의 정보 교환은 Enhanced Spatial‑Channel Attention (ESCA) 모듈에서 이루어진다. ESCA는 먼저 각 브랜치의 특징 맵을 공간 차원에서 풀링·업샘플링해 동일한 해상도로 맞춘 뒤, 채널‑축 어텐션을 적용해 중요한 채널을 강조한다. 이어서 공간‑축 어텐션을 수행해 장거리 토큰 간 관계를 재조정한다. 이중 어텐션 구조는 Transformer의 전역 컨텍스트와 CNN의 지역 디테일을 상호 보완적으로 강화한다.
또한, 픽셀‑대‑픽셀 대비 학습을 도입한 Deep Supervision은 다중 스케일 피라미드에서 추출한 픽셀 임베딩에 대조 손실을 적용한다. 같은 클래스에 속하는 픽셀은 임베딩 공간에서 가깝게, 다른 클래스는 멀리 떨어지도록 강제함으로써 경계가 흐릿해지는 현상을 억제한다. 이 손실은 기존의 크로스 엔트로피와 병행해 최종 손실에 가중합으로 포함되어, 학습 초기에 전역적인 형태를, 후반에는 미세한 경계 정밀도를 동시에 최적화한다.
실험 결과는 세 가지 측면에서 의미 있다. 첫째, IoU 78.2 %는 기존 AMD‑HookNet(≈69.7 %)과 HookFormer(≈75.5 %)를 크게 앞선다. 둘째, HD95와 MDE는 Transformer‑기반 모델과 비슷하거나 약간 우수해, 전역적인 형태 정확도와 지역적인 거리 오차 모두 만족한다. 셋째, 시각적 평가에서 제안 모델은 전형적인 “톱니‑형” 경계 대신 부드러운 곡선을 생성해, 실제 빙하 전진선의 물리적 연속성을 더 잘 반영한다. 이는 SAR 이미지의 speckle 노이즈와 복잡한 얼음‑물 혼합 영역에서도 강인한 성능을 보여준다.
한계점으로는 여전히 데이터 양이 제한적이라는 점과, Transformer 브랜치의 연산 비용이 높아 실시간 적용에 제약이 있다는 점을 들 수 있다. 향후 연구에서는 경량화된 Transformer(예: Swin‑Tiny)와 지리‑기반 사전학습을 결합해 연산 효율성을 높이고, 다중 센서(Optical‑SAR 융합) 데이터에 대한 일반화 성능을 검증할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기