위성 이미지와 패치 기반 트랜스포머를 활용한 건물 손상 탐지

위성 이미지와 패치 기반 트랜스포머를 활용한 건물 손상 탐지
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 xBD 위성 이미지 데이터셋에서 건물 손상 정도를 4가지 클래스로 구분하기 위해 DINOv2‑small과 DeiT‑T 모델을 적용하고, 건물 영역만을 추출하는 패치 기반 전처리와 헤드 고정 파인튜닝 전략을 제안한다. 클래스 불균형과 라벨 노이즈를 고려한 실험 결과, 전체 파인튜닝을 수행한 DeiT 모델이 정확도 78.2%, 매크로 F1 0.599로 가장 높은 성능을 보였으며, 기존 CNN 기반 베이스라인과 비교해 경쟁력을 입증하였다.

상세 분석

이 논문은 재난 상황에서 빠른 상황 인식을 위해 위성 이미지 기반 건물 손상 분류의 실용성을 검증한다는 점에서 의미가 크다. 먼저 xBD 데이터셋은 “무손상” 건물이 전체의 60% 이상을 차지하는 극심한 클래스 불균형을 가지고 있는데, 저자는 이를 완화하기 위해 ‘패치 기반 전처리 파이프라인’을 설계하였다. 구체적으로 건물 폴리곤의 중심 좌표를 기준으로 224×224(DeiT) 혹은 518×518(DINOv2) 크기의 패치를 추출하고, 알파 채널을 이용해 투명·검은 픽셀 비율을 계산한다. 빈 픽셀 비율이 0.01을 초과하면 재추출하는 과정을 반복함으로써 배경 노이즈를 최소화하고, 모델이 구조적 특징에 집중하도록 유도한다.

모델 선택 측면에서는 파라미터 수가 비교적 적은 ViT 변형인 DeiT‑T(≈5 M)와 DINOv2‑small(≈22 M)을 사용하였다. DeiT은 이미지넷 사전학습된 감독 학습 모델이며, Distillation 토큰을 포함해 학생‑교사 구조를 갖는다. 반면 DINOv2는 대규모 비지도 학습(LVD‑142M)으로 사전학습된 모델로, Swish‑Gated Linear Units(SwiGLU)를 사용해 표현력을 강화한다. 두 모델 모두 12개의 트랜스포머 레이어와 다중 헤드 셀프 어텐션을 공유하지만, 헤드 수와 활성화 함수에서 차이를 보인다.

학습 전략은 ‘엔드‑투‑엔드’와 ‘헤드 고정(Frozen‑Head)’ 두 가지로 나뉜다. 엔드‑투‑엔드에서는 전체 파라미터를 미세조정했으며, 학습률 1e‑5, 배치 사이즈 24(DeiT) 혹은 8(DINOv2) 등 그리드 탐색을 수행했다. 헤드 고정 방식에서는 모든 가중치를 고정하고 분류 헤드만 1e‑3 학습률로 10 epoch 학습하였다. 이는 제한된 컴퓨팅 자원(Google Colab Pro+/A100) 하에서 메모리와 시간 효율성을 극대화하기 위한 선택이다.

평가 지표는 정확도, 정밀도, 재현율, 매크로 F1을 사용했으며, 특히 매크로 F1을 통해 소수 클래스(소손상·대손상·파괴)의 성능을 강조하였다. 결과적으로 DeiT 엔드‑투‑엔드 모델이 정확도 0.782, 매크로 F1 0.599를 기록해 가장 우수했으며, 동일 모델의 헤드 고정 버전보다 7%p 이상의 정확도 향상을 보였다. DINOv2 역시 엔드‑투‑엔드가 헤드 고정보다 우수했지만, 파라미터 규모와 학습 epoch 제한(2 epoch)으로 인해 DeiT에 비해 다소 뒤처졌다. 혼동 행렬 분석에서는 ‘무손상’ 클래스에 대한 높은 정확도와 함께, ‘소손상’·‘대손상’·‘파괴’ 간의 오분류가 여전히 존재함을 확인했다.

이 연구는 (1) 패치 기반 전처리로 배경 노이즈를 효과적으로 제거, (2) 작은 ViT 모델도 적절한 파인튜닝 전략을 통해 기존 CNN 베이스라인과 경쟁 가능한 성능을 달성, (3) 제한된 컴퓨팅 환경에서도 실용적인 학습 파이프라인을 구축 가능함을 입증한다는 점에서 기여한다. 다만, 학습 epoch 제한, 테스트 셋에 대한 단일 스플릿 사용, 라벨 노이즈에 대한 정량적 분석 부족 등 몇 가지 한계가 남아 있다. 향후 연구에서는 (i) 합성 소수 클래스 샘플링 혹은 비용 민감 학습을 통한 불균형 완화, (ii) 라벨 정제 및 노이즈 견고성 평가, (iii) 대규모 멀티스케일 트랜스포머 모델 적용 등을 통해 성능을 더욱 향상시킬 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기