테라스케 천문 데이터에 강인한 머신러닝 적용
초록
LCDM 협업은 슈퍼컴퓨터 클러스터와 데이터‑투‑지식 환경을 활용해 SDSS 1억 개 이상의 별·은하·준거광원을 k‑최근접 이웃과 결정트리 등으로 분류하고 광도거리 추정 정확도를 크게 향상시켰으며, 향후 페타스케일 데이터에 대비한 I/O 및 파라미터 최적화 문제를 제시한다.
상세 분석
이 논문은 천문학 데이터 마이닝에 슈퍼컴퓨팅 자원을 적용한 최초 사례 중 하나로, SDSS DR3·DR5의 수백만 개 광학 사진 데이터를 학습용 스펙트럼과 결합해 지도학습을 수행한다. 입력 피처는 u‑g, g‑r, r‑i, i‑z 네 가지 색이며, 필요에 따라 형태학적 파라미터도 추가 가능하다. 학습 알고리즘은 D2K(Data‑to‑Knowledge) 플랫폼에 구현된 결정트리, k‑Nearest Neighbor(k‑NN), 인공신경망, SVM 등이다. 특히 k‑NN은 메모리 내에 훈련 샘플을 저장하고 테스트 샘플에 대해 거리 계산을 수행하는 O(n²) 복잡도를 갖지만, 병렬 작업을 통해 각 노드가 독립적으로 처리하도록 설계해 통신 오버헤드를 최소화하였다. 클러스터 Tungsten은 1280노드, 2560코어, 3.8 TB 메모리를 보유하고 있으며, 작업은 LSF 스크립트와 SSH 기반 태스크 파밍 방식으로 배포된다. 데이터 스트리밍은 고정형 싱글 프리시전 포맷을 사용해 메모리 요구량을 낮추고, 파일 시스템은 Lustre와 Unitree(5 PB)로 구성돼 대용량 입출력 병목을 완화한다. 결과적으로 1억 4천만 개 객체에 대해 2000 obj/s 속도로 분류를 수행했으며, 광학적 색을 이용한 포톤적 적색편이 추정에서 RMS 오차를 기존 0.46에서 0.34 수준으로 감소시켰다. 또한 입력 오류를 반영해 다중 시뮬레이션을 수행하고 확률 밀도 함수(PDF)를 구축함으로써 ‘재앙적 실패’ 비율을 20 %에서 0.7 % 이하로 억제했다. 논문은 현재 I/O 제한, 파라미터 탐색 비용, 훈련 데이터의 깊이 부족 등 테라스케 수준에서 직면한 문제들을 상세히 기술하고, 페타스케일 전환 시 데이터베이스 연동, 체크포인팅, 자동 오류 복구 등의 개선 필요성을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기