스카이캡 고해상도 광학 SAR 변동 감지 데이터셋 및 파운데이션 모델 평가

스카이캡 고해상도 광학 SAR 변동 감지 데이터셋 및 파운데이션 모델 평가
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 SkySat 광학 영상과 Capella X‑밴드 SAR 영상을 매칭·공동 정합하여 19개의 4중(광학‑SAR) 시계열 쿼터트를 구축한 SkyCap 데이터셋을 소개한다. 광학 이미지에서 전문가가 만든 변동 라벨을 SAR 영상에 전이함으로써 SAR 전용 라벨링 없이도 고해상도 SAR 진폭 변동 감지(ACD) 학습이 가능하도록 하였다. 이어 SAR 전용 파운데이션 모델인 SARATR‑X를 SkyCap SAR 데이터에 추가 사전학습(continued pretraining)하고, 기존 광학 파운데이션 모델(HiViT, MTP‑ViT‑B+RVSA, DINOv3)과 비교한다. 전처리 방식(dB+Z‑score, linear, linear+Z‑score)의 차이가 성능에 큰 영향을 미치며, dB+Z‑score 전처리를 적용한 광학 파운데이션 모델 MTP‑ViT‑B+RVSA가 F1₍c₎ 45.06으로 가장 높은 SAR ACD 성능을 보였다. 이는 SAR 전용 모델보다 광학 모델이 더 우수함을 시사한다.

상세 분석

SkyCap 데이터셋은 기존 SAR 변동 감지 연구가 주로 저해상도 Sentinel‑1이나 제한된 TerraSAR‑X·COSMO‑SKYMED 데이터를 사용했던 점을 넘어, 상업용 X‑밴드 Spotlight SAR(0.5 m GSD)과 0.5 m 광학 SkySat 영상을 정밀히 정합한 최초의 VHR(초고해상도) 멀티모달 쿼터트를 제공한다. 라벨링은 광학 이미지에서 인간 전문가가 직접 변동을 표시하고, 정합된 SAR 이미지에 동일 라벨을 전이하는 방식으로 수행돼 SAR 전문가가 필요 없는 비용 효율적인 라벨링 파이프라인을 구현한다. 데이터는 19개 지역(동유럽·중동·아시아)에서 3,484개의 변동 샘플을 포함하며, 다양한 생태계와 기후 조건을 포괄한다.

전처리 측면에서 저자들은 SAR 강도값을 선형 정규화(linear), 선형 후 Z‑score(linear+Z‑score), 그리고 로그형 dB 변환 후 Z‑score(dB+Z‑score) 세 가지 방식으로 실험한다. dB 변환은 SAR 강도의 감마 분포를 정규분포에 가깝게 만들어 광학 이미지와 통계적 일치를 높인다. 결과적으로 광학 파운데이션 모델은 dB+Z‑score 전처리에서 평균 2.5 pp 이상 F1 점수가 상승했으며, 반대로 SAR 전용 모델은 선형 전처리에 최적화돼 dB 입력 시 성능이 1~5 pp 감소했다.

모델 비교에서는 6개의 백본을 사용했다. 광학 기반 HiViT, MTP‑ViT‑B+RVSA, DINOv3와 SAR 전용 SARATR‑X, CapellaX(Capella 데이터에 추가 사전학습), CapALOS‑X(Capella+ALOS‑2 혼합 사전학습)이다. 모든 모델은 Base 규모(≈90 M 파라미터)로 맞추어 공정한 비교를 진행했다. SAR 전용 모델 중 CapALOS‑X가 가장 높은 F1₍c₎ 44.35를 기록했지만, 광학 모델 MTP‑ViT‑B+RVSA가 dB+Z‑score 전처리에서 F1₍c₎ 45.06을 달성해 최고 성능을 보였다. 이는 SAR 전용 사전학습이 동일 센서 데이터에 특화되었음에도 불구하고, 광학 모델이 dB 전처리를 통해 SAR 데이터의 통계적 특성을 효과적으로 학습했기 때문이다.

또한 광학 변동 감지(Optical CD)와 SAR ACD의 성능 격차를 분석했는데, 광학에서는 최고 F1 68.18(DINOv3 ConvNeXt)인 반면 SAR에서는 최고 F1 45.06으로 23 pp 차이가 난다. 이는 SAR의 스페클 노이즈, 기하학적 왜곡, 그리고 변동이 반드시 백스캐터 강도 변화로 드러나지 않는다는 물리적 한계 때문으로 해석된다.

논문의 한계로는 데이터 규모와 지역 다양성의 제한, 랜덤 패치 기반 학습·평가 방식으로 인한 공간 일반화 검증 부족, 그리고 광학‑SAR 정합 오차와 시간 차이(최대 5일)로 인한 라벨 노이즈가 있다. 향후 연구에서는 라벨을 SAR 백스캐터 특성에 맞게 보정하고, 멀티모달 사전학습(광학+SAR) 전략을 탐색함으로써 모달리티 간 격차를 줄이는 방향을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기