폭풍 예측 불균형 데이터에서 로지스틱 회귀와 랜덤 포레스트 비교

본 연구는 위성 측정값을 이용해 대기 중 구름 시스템을 폭풍(대류) 여부로 분류하는 문제를 다룬다. 데이터는 4 % 이하의 대류 구름으로 매우 불균형하며, 저자들은 로지스틱 회귀와 랜덤 포레스트 두 모델을 적용하고, 샘플링 재조정과 임계값 조정을 통해 거짓 경보율과 위협 점수를 최적화한다.

저자: Anne Ruiz (IMT, Gremaq), Nathalie Villa (IMT)

폭풍 예측 불균형 데이터에서 로지스틱 회귀와 랜덤 포레스트 비교
본 논문은 프랑스 기상청이 위성 데이터를 활용해 구름 시스템을 대류성(폭풍)과 비대류성으로 구분하고자 하는 실용적 문제를 다룬다. 연구에 사용된 데이터는 2004년 6~8월에 관측된 1 803개의 학습 샘플과 2005년 동일 기간에 관측된 20 998개의 테스트 샘플로 구성된다. 각 샘플은 41개의 정량적 위성 변수와 대류 여부 라벨(1 = 대류, 0 = 비대류)로 이루어져 있다. 대류 샘플은 전체의 약 4 %에 불과해 데이터가 매우 불균형한 것이 특징이다. 이러한 불균형은 전통적인 정확도나 ROC 곡선이 실제 운영에서 요구되는 낮은 거짓 경보율을 반영하지 못하게 만든다. 논문은 두 가지 주요 전략을 제시한다. 첫 번째는 데이터 재균형이다. 소수 클래스인 대류 샘플을 모두 보존하고, 다수 클래스인 비대류 샘플을 무작위로 추출해 대류 : 비대류 비율을 1 : 5(즉, 0.2)로 맞춘다. 이 과정은 “rebalance.R” 스크립트를 통해 구현되며, 결과 샘플은 “train_sample.csv”에 저장된다. 두 번째는 모델이 출력하는 확률에 대해 임계값 τ를 조정함으로써 성능 지표를 직접 최적화하는 방법이다. τ를 0에서 1까지 변화시켜 거짓 경보율(FAR)과 위협 점수(TS)를 계산하고, 두 지표의 곡선을 동시에 고려해 운영 목적에 맞는 τ를 선택한다. 두 모델은 로지스틱 회귀와 랜덤 포레스트이다. 로지스틱 회귀는 “stepAIC” 절차를 이용해 변수 선택을 수행하고, 최종 모델은 유의한 변수만을 포함한다. 이는 선형 결정 경계와 변수별 회귀 계수를 제공해 해석이 용이하다. 랜덤 포레스트는 “randomForest” 패키지를 이용해 다수의 결정 트리를 배깅하고, 각 트리는 무작위 변수와 샘플을 사용해 성장한다. 모델 학습 과정에서 “out‑of‑bag” 오류를 모니터링하여 트리 수가 약 300개일 때 오류가 안정화됨을 확인한다. 성능 평가는 전통적인 민감도(Se)와 특이도(Sp) 대신, 실제 운영에 더 의미 있는 두 지표를 사용한다. 거짓 경보율(FAR)은 (거짓 경보) / (정답 + 거짓 경보) 로 정의되며, 0에 가까울수록 바람직하다. 위협 점수(TS)는 (정답) / (정답 + 거짓 경보 + 누락) 로 정의되며, 1에 가까울수록 좋다. 논문은 τ를 변화시켜 FAR와 TS의 곡선을 그린 뒤, 두 모델의 곡선을 비교한다. 결과적으로 랜덤 포레스트는 동일 τ에서 로지스틱 회귀보다 낮은 FAR와 높은 TS를 기록했으며, AUC도 약간 우수했다. 특히, 재균형된 학습 데이터에서 랜덤 포레스트는 300개의 트리 이후 성능이 수렴했으며, 이는 모델이 충분히 일반화되었음을 의미한다. 논문의 결론은 다음과 같다. (1) 불균형 데이터에 대해 단순 다운샘플링과 임계값 조정만으로도 실용적인 성능을 얻을 수 있다. (2) 로지스틱 회귀는 해석 가능성이 높아 정책 입안자에게 직관적인 인사이트를 제공하지만, 복잡한 비선형 패턴을 포착하는 데는 한계가 있다. (3) 랜덤 포레스트는 비선형 관계를 잘 학습하고, FAR와 TS 측면에서 더 우수한 결과를 보인다. (4) 최종 모델 선택은 운영 목표(예: 거짓 경보 최소화 vs. 누락 최소화)와 해석 요구에 따라 달라져야 한다. 이 연구는 기상학적 예보뿐 아니라 의료, 금융 등 불균형 분류 문제가 흔한 분야에서도 적용 가능한 실용적인 워크플로우를 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기