고에너지 천체 객체 분류를 위한 머신러닝 방법
초록
**
본 논문은 NuSTAR X‑ray 관측 데이터를 이용해 블랙홀과 펄서라는 두 고에너지 천체를 구분하기 위해 전통적인 트리 기반 모델(로지스틱 회귀, 랜덤 포레스트, XGBoost)과 양방향 LSTM 기반 RNN을 비교 평가한다. 통계적 특징 10개를 추출한 후 트리 모델은 92~93%의 테스트 정확도를 달성했으며, RNN은 과적합으로 테스트 정확도 69%에 머물렀다. 결과는 트리 기반 모델이 이진 분류 문제에 충분히 강력함을 보여준다.
**
상세 분석
**
이 연구는 고에너지 천문학 분야에서 흔히 간과되는 “블랙홀‑펄서 구분”이라는 특수 문제를 머신러닝으로 접근한 점이 의미 있다. 데이터는 NuSTAR의 하드 X‑ray 밴드에서 추출한 이벤트 파일(.evt)이며, 시간 간격이 0.25~0.65 s인 포아송 분포를 따르는 비정규적인 관측 시퀀스를 포함한다. 저자들은 먼저 이벤트를 1 s 간격으로 에너지 합산해 밀집형(k × n × n) 텐서를 구성했지만, 공간 정보를 무시하고 시간 신호만을 사용하기로 결정했다. 이는 “형태 차이가 없을 것”이라는 가정에 기반했으며, 실제로 블랙홀과 펄서의 광도 변동이 매우 유사해 시계열 자체만으로도 구분이 어려운 상황을 반영한다.
전처리 단계에서 30분 윈도우와 30 s 스트라이드로 슬라이딩 윈도우를 적용하고, 각 윈도우에서 평균, 사분위수, 표준편차, 변동계수, 왜도, 첨도 등 10개의 통계량을 추출했다. 클래스 불균형(블랙홀 : 펄서 ≈ 3 : 1)을 해결하기 위해 가중치를 부여하고, 학습·검증 데이터를 층화 샘플링했다. 이러한 전처리와 특징 선택은 트리 기반 모델에 적합하지만, 시계열의 동적 특성을 충분히 활용하지 못한다는 한계가 있다.
모델 구현 측면에서 로지스틱 회귀는 71%의 정확도로 선형 경계의 한계를 명확히 드러냈다. 랜덤 포레스트는 100% 학습 정확도와 93.1% 테스트 정확도를 기록했으며, 평균 트리 깊이가 42로 매우 깊어 과적합 위험이 존재한다. XGBoost는 학습 정확도 93.8%, 테스트 정확도 92%를 달성했으며, 트리 깊이와 샘플링 비율을 조절해 과적합을 어느 정도 억제했다. 두 트리 모델 모두 SHAP 분석을 통해 중앙값, 1사분위수, 평균 등이 주요 변수임을 확인했는데, 이는 펄서가 높은 피크와 큰 변동을 보이는 통계적 특성과 일치한다.
RNN 부분에서는 양방향 LSTM 2층과 단방향 LSTM 1층, Dense와 Dropout 레이어를 포함한 10계층 구조를 사용했으며, 1 s 간격으로 정규화된 시계열을 직접 입력했다. 학습은 11시간 이상 소요됐으며, 훈련 정확도 91%에 비해 테스트 정확도 69%로 심각한 과적합을 보였다. 이는 데이터 양이 충분히 크지 않음, 하이퍼파라미터 튜닝 부족, 그리고 시계열 길이와 배치 크기 선택이 최적이 아니었기 때문으로 추정된다. 또한, 공간 정보를 완전히 배제한 채 순수 시계열만으로는 복잡한 변동 패턴을 포착하기 어려운 점이 있다.
전체적으로 논문은 제한된 전처리와 특징 설계에도 불구하고 트리 기반 모델이 높은 성능을 보인다는 실용적 결론을 제시한다. 그러나 몇 가지 개선점이 눈에 띈다. 첫째, 이벤트 간격이 포아송 분포를 따른다는 점을 활용해 비정규 시계열 모델(예: Hawkes 프로세스 기반 모델)이나 변환 기반 특징(웨이브렛, 스펙트럼 밀도) 등을 추가하면 성능 향상이 기대된다. 둘째, RNN의 과적합을 방지하기 위해 조기 종료, 정규화(Weight Decay), 데이터 증강(시간 축소·확대) 등을 적용할 필요가 있다. 셋째, 공간 정보(픽셀 배열)를 완전히 무시하기보다, CNN‑LSTM 하이브리드 구조로 공간‑시간 상관관계를 동시에 학습하면 실시간 분류 정확도를 크게 높일 수 있다. 마지막으로, 클래스 불균형을 다루는 방법으로 SMOTE와 같은 오버샘플링 기법을 도입하거나, 비용 민감 학습을 보다 정교하게 설계하면 소수 클래스인 펄서에 대한 재현율을 개선할 수 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기