이미지 처리 모델을 활용한 쿼크‑글루온 제트 분류 비교
초록
본 연구는 Pythia 8으로 생성한 72×72 픽셀 3채널 제트 이미지를 이용해 CNN, Vision Transformer(ViT), Swin‑Tiny Transformer를 비교한다. 감독 학습과 Momentum Contrast(MoCo) 기반 자기지도 사전학습을 모두 적용했으며, Swin‑Tiny의 마지막 두 블록만 미세조정할 경우 81.4% 정확도와 0.889 AUC를 달성해 효율과 성능 사이의 최적 균형을 보여준다.
상세 분석
이 논문은 고에너지 물리학(H‑EP) 분야에서 최근 각광받는 이미지 기반 딥러닝 기법을 제트 서브스트럭처 분석에 적용한 사례로, 데이터 전처리부터 모델 설계, 학습 전략까지 체계적인 비교를 제공한다. 먼저 제트 이미지는 (η, ϕ) 평면에 72×72 격자를 두고, R‑채널에 전하 입자의 transverse momentum(p_T), G‑채널에 중성 입자의 p_T, B‑채널에 전하 입자 수를 매핑함으로써 물리적 의미를 보존한다. 이러한 3채널 구성은 기존의 흑백 혹은 단일 채널 접근법보다 풍부한 정보를 제공해 CNN과 Transformer 모두가 활용할 수 있는 고차원 특징을 만든다.
CNN 파트에서는 전통적인 2D 컨볼루션 레이어와 풀링을 이용해 지역적 패턴을 포착한다. 저자들은 CNN이 짧은 거리의 상관관계에 강점이 있지만, 깊이가 얕거나 다운샘플링이 과도하면 전역적인 방사 패턴을 놓칠 위험이 있음을 지적한다. 반면 ViT는 이미지를 일정 크기의 패치(예: 4×4)로 분할하고, 각 패치를 선형 임베딩 후 전역 self‑attention을 적용한다. 이는 토큰 간 거리와 무관하게 모든 위치의 정보를 동시에 고려할 수 있어, 제트 코어와 외곽 방사 패턴 사이의 장거리 상관관계를 학습하는 데 유리하다. 다만 전역 attention은 파라미터와 연산량이 크게 증가하고, 자연 이미지와 달리 제트 이미지의 구조적 특성을 충분히 활용하지 못한다는 한계가 있다.
Swin‑Transformer는 이러한 장단점을 보완하도록 설계되었다. 윈도우 기반 로컬 attention을 기본으로 하면서, 단계마다 윈도우를 시프트하고 패치 머징을 수행해 점진적으로 전역 정보를 통합한다. 특히 Swin‑Tiny는 경량화된 구조임에도 hierarchical multi‑scale 표현을 제공해, 작은 윈도우에서 세밀한 방사 패턴을, 큰 윈도우에서 전체 제트 형태를 동시에 학습한다. 논문에서는 Swin‑Tiny의 마지막 두 블록만 미세조정(fine‑tuning)함으로써 전체 파라미터 수를 크게 줄이면서도 81.4% 정확도와 0.889 AUC를 달성했으며, 이는 “효율‑성능 트레이드오프”의 최적점으로 평가된다.
자기지도 학습으로는 Momentum Contrast(MoCo)를 채택했다. MoCo는 쿼리‑키‑네거티브 샘플을 이용해 대조 손실을 최소화함으로써, 레이블이 없는 대규모 제트 이미지에서도 의미 있는 특징을 추출한다. 특히 제트 이미지가 quark와 gluon 사이에서 미세한 차이만을 보이는 상황에서, MoCo는 이러한 미묘한 변화를 강조하는 데 효과적이었다. MoCo 사전학습 후 Swin‑Tiny를 미세조정하면, 사전학습 없이 직접 감독 학습을 수행한 경우보다 파라미터 효율성이 향상되고, 학습 안정성 및 일반화 성능이 개선되는 것을 확인했다.
실험 설정은 NVIDIA RTX 4060 GPU, 배치 128, 80 epoch, 고정 시드 42 등 재현성을 고려한 환경에서 수행되었다. 검증 데이터에 대한 ROC‑AUC와 정확도 외에도, 학습 시간, 파라미터 수, 메모리 사용량을 비교해 Transformer 기반 모델이 CNN 대비 더 높은 연산 비용을 요구하지만, Swin‑Tiny‑MoCo 조합은 이러한 비용을 크게 절감한다는 결론을 도출한다. 전체적으로 이 논문은 제트 이미지라는 특수 도메인에 Transformer와 자기지도 학습을 성공적으로 적용한 사례를 제시하며, 향후 실제 LHC 데이터에 대한 도메인 전이(domain transfer) 가능성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기