sPlot 배경제거 데이터에 머신러닝 적용

본 논문은 고에너지 물리 실험에서 sPlot 기법으로 얻은 음의 가중치를 가진 데이터에 대해, 손실 함수가 하한을 잃지 않도록 두 가지 새로운 학습 방법(제한된 MSE와 정확한 최대우도)을 제안한다. 이를 통해 기존 머신러닝 알고리즘을 그대로 사용할 수 있음을 실험적으로 입증한다.

저자: Maxim Borisyak, Nikita Kazeev

고에너지 물리 실험에서 측정된 데이터는 신호와 배경 이벤트가 혼합된 형태로 존재한다. 이러한 혼합 데이터를 분석하기 위해 널리 사용되는 sPlot 기법은, 질량과 같은 구분 변수(m)를 이용해 각 이벤트에 sWeight라는 가중치를 부여한다. sWeight는 신호와 배경의 확률밀도 p_sig(m), p_bkg(m)와 전체 이벤트 수 N_k를 이용해 계산되며, 일부 가중치는 음수이다. 전통적인 히스토그램 분석에서는 음의 가중치가 문제가 되지 않지만, 머신러닝 알고리즘은 손실 함수가 하한을 가져야 안정적으로 최적화된다. 특히 교차 엔트로피 손실에 음의 가중치를 그대로 적용하면 L = –w_s·log(p_s) – w_b·log(1–p_s) 형태가 되며, w_b<0 때문에 p_s→1 일 때 손실이 –∞ 로 발산한다. 이는 신경망 등 고용량 모델의 학습을 불가능하게 만든다. 이에 저자들은 두 가지 새로운 학습 전략을 제시한다. 첫 번째는 sWeight 평균화(Constrained MSE) 방법이다. sWeight의 기대값 E_m

sPlot 배경제거 데이터에 머신러닝 적용

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기