머신러닝 기반 은하 형태 분류
초록
본 연구는 SDSS DR7와 Galaxy Zoo 데이터를 이용해 결정트리(CART, C4.5, Random Forest)와 퍼지 추론 시스템을 적용, 은하를 나선형, 타원형, 별/미확인 객체로 자동 분류하는 모델을 개발하고 성능을 비교한다.
상세 분석
이 논문은 현대 천문학에서 급증하는 대규모 데이터셋을 효율적으로 처리하기 위한 머신러닝 접근법을 상세히 탐구한다. 먼저 Galaxy Zoo 프로젝트에서 인간 자원봉사자가 제공한 은하 형태 라벨을 신뢰도 0.8 이상의 확률값으로 필터링해 251 867개의 고품질 샘플을 확보하고, 이 중 75 000개를 테스트용으로 무작위 추출하였다. 입력 피처는 SDSS PhotoObjAll 및 SpecLineAll 테이블에서 추출한 13개의 광도·형상 파라미터로, 색상(g‑r, r‑i), De Vaucouleurs와 Exponential 모델의 축비율, 로그우도, 페트로시안 반경 비율, 적응형 모멘트(mE1, mE2, mCr4) 등을 포함한다.
결정트리 알고리즘은 C4.5와 CART의 분할 기준을 각각 정보이득·이득비와 Gini 지수로 설정하고, 과적합 방지를 위해 사후 가지치기를 적용하였다. 특히 C4.5는 연속형 변수와 결측값을 자연스럽게 처리할 수 있어 광대역 파라미터에 유리했으며, CART는 이진 트리 구조로 해석이 직관적이지만 다중 클래스 문제에서 이진 분할을 반복해야 하는 한계가 있다. Random Forest는 다수의 독립적인 트리를 배깅하고, 각 트리에서 무작위로 선택된 피처와 샘플을 사용해 모델의 편향을 감소시키고 분산을 최소화한다. 이 방법은 특히 클래스 불균형(타원형 > 나선형 > 별/미확인)과 결측 데이터가 존재할 때 강인한 성능을 보인다.
퍼지 추론 시스템은 입력 피처를 삼각·가우시안·시그모이드 형태의 멤버십 함수로 정규화하고, “IF 색상 높음 AND 축비율 작음 THEN 타원형”과 같은 규칙 기반을 구축하였다. 퍼지 로직은 이진 분류가 아닌 연속적인 소속도를 제공함으로써 인간이 부여한 라벨의 불확실성을 반영한다. 서브클러스터링을 통해 자동으로 규칙을 생성하고, 최종 출력은 디퍼지화 과정을 거쳐 클래스 라벨로 변환한다.
실험 결과, Random Forest가 전체 정확도 92 % 이상을 달성하며 가장 우수한 성능을 보였고, C4.5와 CART는 각각 85 %와 82 % 수준이었다. 퍼지 시스템은 정확도는 다소 낮았지만(≈78 %) 소속도 기반의 해석 가능성과 인간 라벨과의 연속적 일치도를 제공한다는 점에서 의미가 있다. 또한, r‑밴드와 i‑밴드 피처를 각각 사용했을 때 성능 차이는 미미했으며, 두 밴드를 결합하면 소폭 향상이 관찰되었다. 논문은 모델 선택 시 정확도와 해석 가능성, 계산 비용을 균형 있게 고려해야 함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기