항공 고도 방사선 예측을 위한 머신러닝 준비 데이터셋 공개
초록
본 논문은 2013‑2023년 사이 589편의 비행에서 수집된 92,476개의 ARMAS 방사선 측정값을 지구우주 환경 변수와 결합한 머신러닝‑Ready 데이터셋을 구축하고, 이를 3개의 균형 잡힌 파티션으로 나누어 공개한다. 데이터셋은 실시간 측정과 최대 24시간 이력 정보를 포함하며, 간단한 이제캐스팅 실험에서 기존 물리 기반 모델(NAIRAS v3)보다 약간 높은 정확도를 보였다.
상세 분석
이 연구는 항공 고도(8‑17 km)에서의 방사선 환경을 정량화하고 예측하기 위한 데이터 기반 접근법의 첫걸음으로, 기존 물리‑모델이 갖는 한계를 보완하고자 한다. ARMAS 장치는 상업 항공기에 탑재되어 실시간으로 선량률을 측정하지만, 데이터 품질 관리가 필요했다. 저자들은 1 042개의 비행 파일 중 신뢰도와 NAIRAS v3와의 피어슨 상관계수를 기준으로 가장 일관된 장치를 선택하고, 고도 8‑15.5 km 구간으로 제한했으며, 비과학용, 전자기 간섭, 비현실적 선량(>50 µSv/h) 데이터를 제거하였다. 결과적으로 589개의 독립 비행과 92 476개의 측정점이 남았다.
지구우주 환경 변수는 네 가지 주요 카테고리로 구성된다. 첫째, 전 세계 5개의 중성자 모니터(오울루, 뉴잭, 남극, 투울, 이즈미르)에서 5분 간격으로 보정된 카운트를 수집했으며, 데이터 결손 시 선형 보간을 적용했다. 둘째, OMNIWeb에서 제공하는 태양풍 밀도, 온도, 속도·자기장 3성분 등 5분 해상도의 전형적 파라미터를 포함했다. 셋째, GOES 위성의 프로톤(7개 에너지 채널)과 전자(≥2 MeV) 플럭스를 5분 간격으로 가져와, 0 이하 값은 보간하였다. 넷째, GOES X‑ray 센서의 1‑8 Å와 0.5‑4 Å 채널을 1분 평균값으로 사용했으며, 낮은 플럭스 구간 역시 보간하였다.
또한, Kp, Ap, Dst와 같은 지자기 활동 지표를 1시간 해상도로, F10.7, 일일 태양흑점수, 태양극 자기장 등 장기 태양 활동 지표를 추가함으로써 단기와 장기의 우주기상 변동을 모두 포착한다.
데이터 파티셔닝은 머신러닝 모델의 일반화 성능을 보장하기 위해 설계되었다. 동일 비행의 모든 측정점이 하나의 파티션에만 포함되도록 하여 데이터 누수를 방지하고, 각 파티션이 지리적·환경적 분포를 동일하게 샘플링하도록 계층적 클러스터링과 균등 샘플링을 적용했다. 결과적으로 훈련·검증·테스트 3세트가 서로 독립적이며, 전체 파라미터 공간을 고르게 커버한다.
이제캐스팅 사례에서는 간단한 회귀 모델(예: Gradient Boosting Regressor)을 사용해 현재 시점의 ARMAS 선량을 예측했으며, 입력 피처는 실시간 측정값과 과거 24시간 이력(시간 지연 피처 포함)이다. 평가 지표는 RMSE와 평균 절대 오차이며, NAIRAS v3 대비 약 5 % 정도 개선된 성능을 보였다. 이는 데이터 품질과 풍부한 우주기상 피처가 물리 모델의 한계를 보완할 수 있음을 시사한다.
데이터셋은 Radiation Data Portal(https://dmlab.cs.gsu.edu/rdp/ml-dataset.html)에서 자유롭게 다운로드 가능하며, CSV와 Parquet 형식으로 제공된다. 메타데이터와 전처리 스크립트도 함께 제공되어, 연구자들이 바로 머신러닝 파이프라인에 투입할 수 있다. 향후 작업으로는 시계열 딥러닝 모델, 멀티태스크 학습, 그리고 실시간 운영 시스템에의 통합이 제안된다.
댓글 및 학술 토론
Loading comments...
의견 남기기