극한 강수 예측을 위한 전천후 공간‑시간 트랜스포머
초록
SaTformer는 위성 HRIT 영상의 전체 공간‑시간 어텐션을 활용해 0‑4시간 내 강수량을 예측하는 비디오 트랜스포머이다. 강수량을 구간별 클래스로 전환하고 클래스 가중치 교차 엔트로피 손실을 적용해 장기 편중 데이터를 완화한다. 2025년 Weather4Cast “Cumulative Rainfall” 챌린지에서 CRPS 3.135 점으로 1위를 차지했으며, 코드와 가중치가 공개되어 있다.
상세 분석
SaTformer는 기존 CNN 기반 기상 예측 모델이 갖는 지역적 수용 영역과 스케일링 한계를 극복하기 위해 완전한 3차원(시간‑공간) 어텐션 메커니즘을 도입했다. 입력은 1시간 길이의 11채널 HRIT 영상이며, 각 프레임을 4×4 패치로 분할해 토큰화한다. 토큰 시퀀스 앞에 삽입된 클래스 토큰(CLS)은 전체 시퀀스 정보를 집약해 최종 예측 헤드에 전달된다. 트랜스포머 인코더는 L=12개의 레이어로 구성되고, 다중 헤드 어텐션(8 heads, head dim 64)과 512 차원의 피드포워드 네트워크를 사용한다.
핵심 설계는 두 가지 문제를 해결한다. 첫째, 강수량 회귀를 직접 학습하면 데이터가 장기 편중(극한 강수는 매우 드물다)되어 손실이 주류 클래스에 치우치기 쉽다. 이를 극복하기 위해 저자들은 연속적인 강수량 구간을 n=64개의 클래스로 이산화하고, 원-핫 레이블을 생성한다. 둘째, 클래스 불균형을 보정하기 위해 로그 스케일의 역빈도 가중치 w_i = -log(|D_i|/|D_total|)를 적용한 가중치 교차 엔트로피 손실을 사용한다. 이 접근법은 극한 강수에 대한 감도와 전체적인 캘리브레이션을 동시에 향상시킨다.
학습은 200 epoch, 배치 128, 학습률 1e‑5로 4대 A6000 GPU에서 진행되었으며, 입력 해상도 32×32, 패치 크기 4, 은닉 차원 512 등 하이퍼파라미터가 상세히 제시된다. 평가 지표는 누적 순위 확률 점수(CRPS)이며, SaTformer는 3.135 점으로 1위를 기록했다. Ablation 실험에서는 TimeSformer 기반 베이스라인에 클래스 가중치 손실을 추가한 경우와 전체 설계가 결합된 경우의 성능 차이를 정량적으로 보여준다. 전체적으로 SaTformer는 비디오 트랜스포머를 기상 예측에 적용한 최초 사례 중 하나이며, 장기 편중 데이터 처리와 전천후 어텐션 설계가 실용적인 성능 향상을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기