CMS 자동 데이터 품질 모니터링을 위한 이상 탐지 시스템
초록
본 논문은 CMS 검출기의 데이터 품질을 실시간으로 감시하기 위해 베타-이항 통계, 주성분 분석(PCA), 그리고 자동인코더(AE) 기반의 무감독 학습 알고리즘을 결합한 “AutoDQM” 시스템을 제안한다. 2022년 전체 양성자-양성자 충돌 데이터에 적용한 결과, 고장으로 인한 “불량” 데이터가 정상 데이터 대비 4~6배 높은 비율로 탐지됨을 확인하였다.
상세 분석
AutoDQM은 기존의 인간 셰프터가 히스토그램을 눈으로 비교하는 방식을 자동화하기 위해 세 가지 핵심 모듈을 설계하였다. 첫 번째는 베타‑이항 확률함수를 이용한 통계적 검증이다. 각 히스토그램의 빈(bin) 카운트를 베타‑이항 분포의 사후 확률로 변환하고, 최대우도 대비 비율을 로그‑우도 형태의 Z‑값으로 정규화한다. 이때 최소 1 %의 예측 오차를 보장하기 위해 스케일링 파라미터 τ를 도입해 대규모 통계량에서도 안정적인 풀 값을 얻는다. 다중 레퍼런스 런을 평균화함으로써 런 간 시스템 변화에 대한 강인성을 확보한다.
두 번째는 차원 축소 기반의 무감독 학습이다. PCA는 216개의 “양호” 런으로부터 주요 성분을 학습하고, 입력 히스토그램을 저차원 잠재공간에 투사한 뒤 재구성한다. 재구성 오차를 χ²′(입력 히스토그램의 엔트리 수 D에 대한 1/3 제곱 스케일링)로 측정해 이상 여부를 판단한다. 저점유율 빈을 0.33 % 이상으로 병합하는 전처리 단계는 통계적 잡음을 감소시켜 PCA의 재구성 정확도를 크게 향상시킨다.
세 번째는 심층 신경망 기반 자동인코더이다. 1D 컨볼루션 인코더와 전치 컨볼루션 디코더를 50개의 노드, 12개의 필터, 2개의 은닉층 구조로 설계하고, 학습률 0.001로 최적화한다. 입력 히스토그램을 압축‑복원 과정에 두고, 복원된 히스토그램과 원본 사이의 χ²′ 값을 이상 점수로 사용한다. 여기서도 베타‑이항 파라미터를 100배 확대해 복원 히스토그램의 통계적 불확실성을 억제한다.
세 모듈 모두 히스토그램을 시각적으로 히트맵 형태로 제공해 셰프터가 즉시 문제 구역을 파악할 수 있게 한다. 특히 β‑이항 기반 Z‑값과 χ²′ 스코어는 각각 “단일 빈 급격 변동”과 “전체 형태 변형”을 포착하므로 상호 보완적이다. 실험 결과, AutoDQM은 HCAL 타이밍 오류, CSC 트랙 스텁 결함 등 실제 운영 중 발생한 다양한 고장을 기존 DQM GUI에서 거의 식별하지 못하던 상황에서도 높은 탐지율을 보였다. 또한, “불량” 런이 전체 데이터의 2 % 미만임에도 불구하고 4~6배 높은 탐지 비율을 기록해 무감독 학습 기반 시스템의 실용성을 입증하였다. 다만, 엔트리 수가 극히 적은 히스토그램은 χ²′ 값이 낮게 편향될 수 있어 향후 정규화 기법이 필요하다. 전반적으로 AutoDQM은 통계적 엄밀성과 딥러닝의 표현력을 결합해 대규모 입자 물리 실험의 데이터 품질 관리에 새로운 표준을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기