대형강입자충돌기에서 이벤트 토큰화와 마스크 토큰 예측을 활용한 이상 탐지
초록
본 연구는 경량화된 트랜스포머 인코더 기반 모델을 이용해 LHC 충돌 이벤트를 토큰 시퀀스로 변환하고, 마스크 토큰 예측을 통해 배경 데이터의 분포를 학습한다. 학습된 모델은 재구성 점수의 편차를 이상 지표로 사용해 사전 지식 없이 희귀한 네‑탑 쿼크 생산 신호를 탐지한다. 제안 방법은 기존 비지도 이상 탐지 기법과 비교해 경쟁적인 ROC‑AUC(0.67)를 달성했으며, 토큰화 설계와 모델 경량화가 물리학 데이터에 효과적임을 보여준다.
상세 분석
이 논문은 대형강입자충돌기(LHC)에서 발생하는 복잡한 이벤트를 자연어 처리(NLP)에서 사용되는 토큰화와 마스크드 언어 모델(Masked Language Model, MLM) 기법으로 변환하는 새로운 접근법을 제시한다. 먼저, 물리학 이벤트를 입자 종류(7가지 카테고리)와 각 입자의 4‑벡터(전이동량 p_T, 의사‑빠르기 η, 방위각 φ)로 표현하고, 이 연속값들을 사전에 정의된 구간(각 4개 구간)으로 양자화한다. 구체적으로 p_T, η, 결측 전이동량(E_T^miss)은 백분위 기반 4구간, φ와 φ_E^miss은 ¼π 간격의 4구간으로 나뉘어 토큰 ID가 1~456 범위로 매핑된다. 이렇게 생성된 토큰 시퀀스는 길이 20(18 입자 + E_T^miss + φ_E^miss)으로 고정되고, 패딩은 0 토큰으로 처리한다.
모델 아키텍처는 두 개의 트랜스포머 인코더 레이어와 각 레이어당 4개의 셀프‑어텐션 헤드를 갖는 경량화된 LLM‑like 구조이다. 입력 토큰은 임베딩 레이어를 거쳐 차원 변환된 뒤, 트랜스포머 블록을 통과하고 최종적으로 선형 레이어와 소프트맥스가 결합되어 각 토큰 클래스에 대한 확률 분포를 출력한다. 학습 단계에서는 배경 이벤트만을 사용해 BERT와 동일한 마스크드 토큰 예측(Masked Token Prediction, MTP) 방식을 적용한다. 각 이벤트에서 무작위로 하나의 토큰을 마스크하고, 모델은 해당 토큰을 복원하도록 Sparse Categorical Cross‑Entropy 손실을 최소화한다. Adam 옵티마이저와 조기 종료(Early Stopping)를 사용해 과적합을 방지한다.
추론 시에는 이벤트 내 모든 토큰을 순차적으로 마스크하고 복원한다. 복원 확률(또는 손실)의 평균값을 이벤트별 재구성 점수로 정의하고, 점수가 낮은(즉, 복원이 어려운) 이벤트를 이상으로 판정한다. 이 점수 분포는 배경과 신호 사이에 명확한 차이를 보이며, ROC‑AUC 0.67이라는 수치를 기록한다. 이는 동일 데이터셋에 적용된 DDD, DeepSVDD, DROCC 등 기존 비지도 방법과 비교했을 때, DDD에 약간 못 미치지만 DeepSVDD와 DROCC보다 우수한 성능을 나타낸다.
핵심 인사이트는 다음과 같다. 첫째, 물리학 이벤트를 토큰화함으로써 고차원 연속 데이터를 이산형 시퀀스로 변환해 트랜스포머가 효율적으로 학습할 수 있다. 둘째, 마스크드 토큰 예측은 사전 라벨이 없는 상황에서도 배경 분포를 강력히 모델링할 수 있는 비지도 학습 프레임워크를 제공한다. 셋째, 경량화된 인코더 구조와 제한된 토큰 사전(≈456개)에도 불구하고 복잡한 네‑탑 신호를 어느 정도 구분할 수 있음을 보여준다. 마지막으로, 토큰화 구간 설계가 모델 성능에 큰 영향을 미치며, 현재는 수동 구간 설정이지만, 학습 기반 토큰화(예: VQ‑VAE)로 개선될 여지가 있다.
제한점으로는 토큰화 과정에서 물리적 연속성을 완전히 보존하지 못하고, 토큰 수가 고정돼 이벤트당 입자 수가 변동하는 경우 정보 손실이 발생한다는 점이다. 또한, 현재 모델은 단일 토큰 마스크만을 사용해 학습했으며, 다중 토큰 마스크나 순차적 마스크 전략을 도입하면 더 풍부한 컨텍스트 학습이 가능할 것으로 기대된다. 향후 연구에서는 토큰 사전 확장, 더 깊은 트랜스포머 레이어, 그래프 기반 인코더와의 하이브리드, 그리고 실제 LHC 데이터에 대한 적용을 통해 모델의 일반화 능력을 검증할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기