데이터 전처리 표준화: 기후 예측 AI·ML을 위한 권장 실천법
초록
**
본 논문은 AI·ML 기반 기후 예측에서 데이터 전처리의 중요성을 강조하고, 이상값 처리, 비정상성 보정, 스페이시오템포럴 상관성 고려, 데이터 누수 방지 등 10여 가지 구체적 절차와 검증 방법을 제시한다. 사례 연구를 통해 전처리 방식이 동일 모델의 예측 성능에 미치는 영향을 보여주며, 투명하고 재현 가능한 연구를 위한 표준 프로토콜을 제안한다.
**
상세 분석
**
이 논문은 기후 데이터가 갖는 고유한 특성—시공간적 상관성, 비정상성, 비정규분포, 극단값—을 AI·ML 모델에 바로 적용하면 “garbage in, garbage out” 현상이 발생한다는 점을 명확히 짚는다. 저자들은 먼저 연구 목적과 예측 시계열(수주‑수년) 정의를 명시하고, 이를 기반으로 입력 변수와 목표 변수를 선정하도록 권고한다. 데이터 탐색 단계에서는 유효 샘플 수 (N_{\text{eff}}) 를 계산해 실제 독립 정보량을 파악하고, 결측치·오류를 식별한다.
전처리 핵심 절차는 (1) 정규화·표준화: 평균·표준편차 기반 z‑스코어와 함께 로그·Box‑Cox·Yeo‑Johnson 등 비정규분포 변환을 적용한다. (2) 이상값·극단값 처리: IQR 기반 클리핑, 혹은 분위수 매핑을 통해 모델이 과도한 편향을 학습하지 않도록 한다. (3) 비정상성 보정: 선형·다항식 트렌드 제거 외에 EMD, STL 등 시계열 분해 기법을 활용해 장기 변화와 계절성을 분리한다. (4) 스페이시오템포럴 차원 축소: PCA, EOF, Autoencoder 등을 이용해 고차원 필드를 저차원 특징으로 압축한다.
데이터 누수 방지는 논문의 가장 강조점이다. 저자는 시계열 블록 분할을 권장해 훈련·검증·시험 데이터를 시간적으로 겹치지 않게 만든 뒤, 전처리(스케일링·트렌드 제거·특징 선택)를 훈련·검증 세트에만 적용하고 파라미터를 시험 세트에 그대로 전이한다. 또한, k‑fold 교차검증을 사용할 때는 공간·시간 의존성을 고려한 시간‑시계열 CV, 공간‑블록 CV, 스트래티파이드 CV 등을 선택하도록 제시한다.
특징 선택 단계에서는 상관관계 분석·변수 중요도(예: SHAP, permutation importance)와 같은 통계적·해석적 방법을 병행해 불필요한 변수를 제거한다. 이렇게 하면 모델 복잡도와 과적합 위험을 동시에 낮출 수 있다.
두 개의 사례 연구—(i) 온도 이상값 처리에 따른 서브시즌 예보 성능 차이, (ii) 강수량 비정규분포 변환이 장기 예측 정확도에 미치는 영향—를 통해 전처리 선택이 동일 모델의 RMSE·ACC·CRPS 등에 미치는 정량적 변화를 보여준다. 결과는 전처리 단계가 모델 성능보다 더 큰 변동성을 야기할 수 있음을 입증한다.
마지막으로, 저자들은 재현성·투명성을 위해 데이터 전처리 파이프라인을 코드와 메타데이터 형태로 공개하고, 실험 설계와 결과 보고 시 훈련·검증·시험 데이터 비율, 사용한 변환 함수, CV 전략 등을 명시하도록 권고한다. 이러한 표준화된 절차는 기후 AI·ML 연구의 신뢰성을 크게 향상시킬 것으로 기대된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기