위상 기반 시계열과 XGBoost를 활용한 태양 플레어 예측

위상 기반 시계열과 XGBoost를 활용한 태양 플레어 예측
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 ARTop 프레임워크로부터 얻은 자기 위상(와인딩·헬리시티) 입력률을 시간‑시계열 형태로 전처리하고, 롤링 통계·왜도·플레어 이력 등 파생 특징을 결합한 XGBoost 분류기를 구축한다. 24시간 내 M1.0 이상 플레어 발생 확률을 예측하며, 검증 데이터에서 TSS 0.804, 독립 보류 집합에서 TSS 0.524를 달성했다. SHAP 분석을 통해 플레어 이력과 전류‑운반 위상 누적량이 가장 중요한 변수임을 확인하였다.

상세 분석

이 논문은 기존 플레어 예측 연구에서 간과되던 위상 물리량, 즉 자기 와인딩(L′)과 헬리시티(H′)의 시간‑입력률을 핵심 피처로 삼았다. ARTop 코드를 이용해 HMI SHARP 벡터 마그네틱 데이터를 12분 간격으로 처리하고, DAVE4VM 기반 플라즈마 흐름을 추정해 필드 라인의 상호 회전을 계산한다. 특히 전류‑운반 성분(δL′_c, δH′_c)과 포텐셜 성분(δL′_p, δH′_p)을 부호에 따라 분리함으로써 광학 흐름 평활화 파라미터에 대한 민감도를 크게 낮추었다.

데이터셋은 232개의 SHARP 영역(총 384개의 M·X급 플레어 포함)으로 구성했으며, 720 s 간격의 시계열을 10 년 이상에 걸쳐 수집했다. 학습‑검증‑보류 집합은 플레어 발생 빈도와 강도 분포를 균등하게 유지하도록 층화 샘플링했으며, 특히 11158, 11429, 12673 등 고강도 플레어를 포함한 3개의 대표 영역을 검증에 배정했다.

피처 엔지니어링 단계에서는 (1) 롤링 평균·표준편차·최대·최소, (2) 지수 평활값, (3) 4차 중심꼬리(왜도·첨도), (4) 과거 24 h, 48 h, 72 h 플레어 발생 횟수와 강도, (5) 위상 피처의 누적값을 포함한 57개의 파생 변수를 생성했다. 결측값은 선형 보간으로 대체하고, 클래스 불균형을 완화하기 위해 XGBoost의 scale_pos_weight 파라미터를 조정했다.

모델 튜닝은 RandomizedSearchCV와 10‑fold 교차검증을 통해 max_depth, learning_rate, n_estimators, subsample, colsample_bytree 등을 최적화했으며, 최종 모델은 350개의 트리와 0.03의 학습률, 최대 깊이 7을 사용한다. 확률 임계값은 Precision‑Recall 곡선을 기반으로 F1‑score가 최대가 되는 0.27으로 설정하였다.

성능 평가는 TSS, HSS, AUC, F1‑score, 로그‑손실 등 다중 지표를 사용했다. 검증 집합에서는 TSS 0.804, AUC 0.92, F1 0.71을 기록했으며, 보류 집합에서는 TSS 0.524, AUC 0.84, F1 0.58을 달성했다. 특히 SHAP 값 분석에서 ‘플레어 이력’과 ‘전류‑운반 와인딩·헬리시티 누적량’이 전체 기여도의 45 % 이상을 차지했으며, 이는 물리적 해석 가능성을 크게 높인다.

오류 분석 결과, C‑급 플레어가 빈번히 발생하는 AR에서 거짓 양성 비율이 상승했으며, 장경(±60°) 근처에서 투영 효과로 인한 위상 피처 왜곡이 주요 원인으로 확인되었다. limb‑affected 데이터를 제외해도 보류 집합 TSS는 0.521→0.524로 변동이 미미했는데, 이는 플레어 수 자체가 감소하면서 통계적 파워가 약화된 것이 원인이다. 따라서 실제 운영 단계에서는 투영 보정 또는 limb‑region 전용 모델이 필요하다.

결론적으로, 전류‑운반 위상 피처는 전통적인 SHARP 파라미터(예: 총자기에너지, 전류)와 비교해 독립적인 예측 정보를 제공한다. XGBoost와 결합된 시계열 피처 엔지니어링은 복잡한 비선형 관계를 효과적으로 학습하면서도 SHAP을 통한 물리적 해석을 가능하게 한다. 향후 연구에서는 (1) 실시간 데이터 파이프라인 구축, (2) limb‑region 보정 알고리즘 개발, (3) 다중 시점(6 h, 12 h, 48 h) 예측 모델 확장 등을 통해 운영 적용성을 높일 수 있을 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기