설명 가능한 입자 체비쉐프 네트워크를 활용한 고성능 제트 태깅

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

E‑PCN은 기존 Particle Chebyshev Network(PCN)를 확장하여, 각 입자 쌍의 Δ, kₜ, z, m² 네 가지 운동학적 변수를 엣지 가중치로 사용하는 4개의 병렬 그래프를 구축한다. Chebyshev와 EdgeConv 레이어를 교차 적용해 특성을 추출하고, Grad‑CAM 기반 중요도 분석을 통해 Δ와 kₜ가 전체 판단의 76 %를 차지함을 확인한다. JetClass 데이터셋(10 클래스)에서 매크로 정확도 94.67 %, AUC 96.78 %, AUPR 86.79 %를 달성해 기존 PCN 대비 각각 2.36 %, 4.13 %, 24.88 % 향상하였다.

상세 분석

E‑PCN은 그래프 신경망(GNN) 기반 제트 태깅에 물리적 해석 가능성을 부여한 혁신적인 설계이다. 먼저 입자들을 16차원 피처(운동량, 에너지, η·φ 좌표, 충돌점으로부터의 변위, 입자 종류 원‑핫)로 표현하고, k‑NN(k=3)으로 연결된 그래프 구조를 만든다. 핵심은 동일한 노드와 연결성을 유지하면서, 각 엣지에 서로 다른 로그 변환된 운동학 변수(ln Δ, ln kₜ, ln z, ln m²)를 가중치로 부여한 4개의 멀티‑그래프를 동시 처리한다는 점이다.

네트워크 아키텍처는 각 그래프에 대해 동일하지만 독립적인 파라미터를 갖는 5계층의 특성 추출기를 사용한다. 여기서는 Chebyshev Convolution(ChebConv)과 Edge Convolution(EdgeConv)을 번갈아 배치해, 스펙트럴 방식으로 넓은 홉(최대 16)까지 정보를 전파하면서도, 엣지‑레벨에서 입자 쌍 간 차이를 학습한다. 각 레이어 뒤에 배치 정규화와 ReLU를 적용해 학습 안정성을 높였다.

다섯 번째 레이어 이후 평균 풀링(mean pooling)으로 64차원 그래프 임베딩을 얻고, 네 개의 임베딩을 4×64 행렬로 스택한다. 1D 컨볼루션(커널 1)을 통해 각 그래프 채널의 중요도를 학습적으로 조정하고, 이를 256차원 벡터로 펼쳐 두 개의 완전 연결층(드롭아웃 0.1)으로 최종 10 클래스 확률을 출력한다.

학습은 AdamW 옵티마이저(learning rate 1e‑3)와 조기 종료(10 epoch) 조건을 사용했으며, 최대 500 epoch까지 진행했다. 데이터는 JetClass 전체에서 1 M(학습), 5 M(검증), 20 M(테스트) 제트로 구성했으며, 클래스당 균형을 맞추기 위해 학습 샘플을 100 k씩 추출했다.

해석 측면에서는 Grad‑CAM을 각 그래프별 출력에 적용해 엣지 가중치의 기여도를 시각화했다. 결과는 Δ와 kₜ가 각각 40.72 %와 35.67 %의 비중을 차지해 총 76 %를 담당하고, z와 m²가 나머지 24 %를 차지함을 보여준다. 이는 물리적으로도 기대되는 바와 일치한다; Δ와 kₜ는 Lund 플레인에서 핵심적인 축척 변수이며, 스플리팅 구조를 가장 잘 구분한다.

성능 평가에서는 매크로 정확도 94.67 %(PCN 대비 +2.36 %), 매크로 AUC 96.78 %(+4.13 %), 매크로 AUPR 86.79 %(+24.88 %)를 기록했다. 특히 AUPR에서 큰 폭의 개선이 나타난 것은 클래스 불균형이 심한 상황에서도 z와 m²와 같은 보조 변수들이 미세한 구분에 기여했음을 의미한다.

전체적으로 E‑PCN은 (1) 멀티‑그래프 설계로 물리적 변수별 특화 학습, (2) 스펙트럴‑공간 Chebyshev와 로컬 EdgeConv의 시너지, (3) Grad‑CAM 기반 해석 가능성 제공이라는 세 축을 성공적으로 결합했다. 향후 실시간 트리거 시스템에 적용하기 위해 연산량을 더 최적화하거나, 추가적인 물리적 대칭(예: IRC 안전성) 제약을 도입하는 연구가 기대된다.

설명 가능한 입자 체비쉐프 네트워크를 활용한 고성능 제트 태깅

초록

상세 분석

댓글 및 학술 토론

의견 남기기