다중소스 강수 융합을 위한 이중 단계 TransUNet 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 위성·재분석 기반 6개의 다중소스 강수 자료와 ERA5의 4가지 기상 변수를 결합한 이중 단계 딥러닝 모델(DDL‑MSPMF)을 제안한다. 첫 단계에서는 TransUNet 기반 분류기가 일일 강수 발생 확률을 예측하고, 두 번째 단계에서는 또 다른 TransUNet이 분류 결과와 모든 입력 변수를 이용해 0.25° 해상도의 일일 강수량을 추정한다. 중국 전역(2001‑2020)에서 계절 평균(R=0.75, RMSE=2.70 mm·day⁻¹) 및 강우 강도(>25 mm·day⁻¹) 측면에서 기존 딥러닝·통계 기반 베이스라인을 모두 능가했으며, SHAP 해석을 통해 강수 발생 확률과 평균 기압이 핵심 기여 변수임을 확인하였다.

상세 분석

DDL‑MSPMF는 두 개의 TransUNet 모듈을 연속적으로 배치한 ‘이중‑스테이지 이벤트‑크기’ 구조를 채택한다. 첫 번째 스테이지는 0/1 강수 발생 여부를 확률적으로 출력하는 이진 분류기로, 입력은 6개의 MSP( CMORPH, PERSIANN, GPM, GSMAP, MSWEP, ERA5‑Precip)와 ERA5의 2 m 기온, 2 m 이슬점, 평균 기압, 토양 수분(0‑7 cm)이다. 이 단계에서 사용된 TransUNet은 CNN 기반 인코더와 Vision Transformer 디코더를 결합해 공간적 패턴과 장거리 종속성을 동시에 학습한다. 분류기의 출력 확률은 두 번째 스테이지의 회귀 입력에 추가되어, 강수량 추정 시 ‘강수 발생 가능성’이라는 메타 정보를 제공한다. 두 번째 스테이지 역시 TransUNet을 활용했으며, 여기서는 회귀 손실(L1+L2 혼합)과 함께 가중치 공유를 최소화해 과적합을 방지한다.

모델 학습은 2001‑2018년을 훈련, 2019‑2020년을 검증·테스트 셋으로 사용했으며, 데이터는 0.25° 격자와 일일 평균값으로 정규화하였다. 베이스라인으로는 XGBoost, CNN‑Transformer, UNet, 순수 Transformer, LSTM, CNN‑LSTM 등 11가지 조합을 구성했으며, 각각의 RMSE, 상관계수(R), ETS(Equitable Threat Score) 등을 비교하였다. 결과적으로 TransUNet‑TransUNet 조합이 계절 평균에서 R=0.75, RMSE=2.70 mm·day⁻¹를 기록해 가장 높은 성능을 보였고, 단일 회귀 모델 대비 강우 강도 구간별(특히 >25 mm·day⁻¹) ETS가 평균 0.12포인트 상승하였다.

SHAP(Shapley Additive exPlanations) 분석을 통해 모델이 가장 크게 의존하는 변수는 첫 단계의 강수 발생 확률과 ERA5 평균 기압이었다. 이는 강수 발생 여부가 양적 예측에 결정적 영향을 미치며, 기압 변화가 대규모 강우 시스템(예: 장강·한강 유역)의 발달을 반영한다는 물리적 해석과 일치한다. 또한, 고지대(청해고원)에서 TPHiPr 데이터와의 독립 검증 결과, R=0.68, RMSE=3.12 mm·day⁻¹를 기록해 데이터가 희박한 지역에서도 모델의 일반화 능력이 검증되었다.

이 연구는 (1) 다중 소스 강수와 기상 물리량을 동시에 활용한 하이브리드 딥러닝 구조, (2) 이벤트‑크기 이중 스테이지 설계가 강우 강도와 극단 사건 탐지에 유리함, (3) SHAP 기반 해석을 통해 모델 투명성을 확보함을 입증한다. 향후 전 세계 기후 구역에 적용하기 위해 입력 데이터 포트폴리오를 확대하고, 실시간 운영을 위한 경량화 모델 변형을 탐색할 여지가 있다.

다중소스 강수 융합을 위한 이중 단계 TransUNet 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기