천문 데이터베이스 정화를 위한 재생 문자열 기법

초록

본 논문은 대규모 광학·디지털 천문 조사에서 발생하는 위성·항공기 트랙, 스크래치, 밝은 별 주변의 반사 고리와 회절 스파이크 등 네 가지 주요 잡음 패턴을 자동으로 탐지하고 플래그하는 새로운 확률적 방법인 ‘재생 문자열(Renewal Strings)’을 제안한다. Hough 변환, 재생 과정, 은닉 마코프 모델을 결합해 높은 정확도와 신뢰도 점수를 제공하며, 슈퍼코스모스(SuperCOSMOS) 데이터에 적용해 실용적인 스퍼리어스 레코드 데이터셋을 생성한다.

상세 분석

재생 문자열 기법은 먼저 이미지 혹은 객체 좌표 집합에 대해 전통적인 Hough 변환을 적용해 잠재적인 직선 후보를 추출한다. Hough 변환은 각 점을 파라미터 공간에 투사함으로써 선형 구조를 전역적으로 탐지하지만, 잡음이 많고 부분적으로만 나타나는 위성 트랙이나 스크래치와 같은 현상에서는 false positive와 false negative가 빈번히 발생한다. 이를 보완하기 위해 논문은 재생 과정(renewal process)을 도입한다. 재생 과정는 점들의 연속적인 간격을 확률적 모델링하여, 일정 간격 이하로 점이 연속될 경우 하나의 ‘생성 이벤트’로 간주하고, 간격이 크게 늘어날 경우 새로운 이벤트가 시작된다고 가정한다. 이렇게 하면 실제 물리적 선형 현상이 만든 점들의 간격 분포와 무작위 잡음의 간격 분포를 구별할 수 있다.

그 다음 단계에서는 은닉 마코프 모델(HMM)을 사용해 각 점이 ‘선형 구조에 속함’ 혹은 ‘배경 잡음’ 두 가지 숨겨진 상태 중 어느 것에 해당하는지를 추정한다. 관측값은 점 간 거리와 Hough 변환에서 얻은 파라미터 일치도이며, 전이 확률은 재생 과정에서 정의된 간격 분포에 기반한다. Viterbi 알고리즘을 통해 최적 상태 시퀀스를 찾음으로써, 연속된 점들의 집합이 실제 선형 아티팩트인지 여부를 확률적으로 판단한다.

원형 고리와 회절 스파이크는 선형 모델만으로는 포착하기 어려우므로, 논문은 Hough 변환을 원형 및 방사형 형태로 확장하고, 동일한 재생‑HMM 프레임워크를 적용한다. 원형 고리의 경우 중심과 반지름 파라미터를 추정하고, 점 간 각도 차이를 재생 과정에 포함시켜 원형 연속성을 평가한다. 회절 스파이크는 별 중심을 기준으로 방사형 선형 구조가 여러 개 방출되는 형태이므로, 별 위치를 사전 정의하고 각 스파이크 방향을 별도의 HMM 체인으로 모델링한다.

실험에서는 SuperCOSMOS Sky Survey의 10억 개 이상 객체 중 약 0.1%에 해당하는 스퍼리어스 레코드를 대상으로 검증하였다. 재생 문자열은 기존 Hough 기반 단순 필터에 비해 정밀도 95% 이상, 재현율 92%를 달성했으며, 특히 짧고 불규칙한 위성 트랙을 탐지하는 데 큰 개선을 보였다. 또한, 신뢰도 점수를 통해 사용자가 원하는 민감도 수준을 조절할 수 있어, 과학적 분석 단계에서 불필요한 잡음을 선택적으로 제거할 수 있다.

이 방법의 장점은 (1) 선형·원형·방사형 등 다양한 형태를 하나의 확률적 프레임워크로 통합, (2) 잡음에 강인한 재생 과정 기반 간격 모델링, (3) 은닉 상태 추정을 통한 확률적 신뢰도 제공이다. 한편, 파라미터 초기화와 HMM 학습에 필요한 사전 데이터가 필요하며, 매우 밀집된 별 영역에서는 오버플래그가 발생할 가능성이 있다. 향후 연구에서는 딥러닝 기반 전처리와 결합하거나, 다중 파라미터 공간 탐색을 자동화해 파라미터 의존성을 감소시키는 방향이 제시된다.