ALICE GPU 기반 TPC 트래킹 혁신: 고점유율 Pb‑Pb 데이터 처리와 실시간·오프라인 최적화
초록
ALICE는 50 kHz Pb‑Pb 충돌을 연속으로 기록하기 위해 GEM TPC와 GPU 기반 온라인 팜을 도입했다. 높은 점유율과 공간 전하 왜곡으로 인해 기존 트래킹 알고리즘이 내·외부 패드 로우에서 클러스터 연결에 어려움을 겪었다. 논문은 내부 패드 로우 클러스터 부착을 개선하고, GPU 프레임워크에 런타임 컴파일(RTC)을 적용한 세 단계(Phase I, Phase II, Phase III) 개선을 제시한다. 또한 온라인·오프라인 모두 GPU에서 트래킹을 수행함으로써 처리 속도와 물리 성능을 동시에 향상시켰다.
상세 분석
본 논문은 ALICE Run 3에서 도입된 GEM‑TPC의 연속 읽기와 50 kHz Pb‑Pb 충돌률이 초래하는 높은 로컬 점유율, 그리고 공간 전하 왜곡(Space Charge Distortions, SCD) 문제를 중심으로 트래킹 알고리즘의 구조적 한계를 진단한다. 기존 HL‑T 기반 셀룰러 오토마톤 시드와 칼만 필터 기반 트랙 팔로잉은 다중 시드와 클러스터 공유를 허용하면서도, 특히 내부 패드 로우(패드 row < 20)에서 클러스터가 충분히 부착되지 않아 ITS‑TPC 매칭 효율이 급격히 감소하는 현상을 보였다. 이는 시드 단계에서 다수의 후보 트랙이 생성되고, 매칭 단계에서 긴 트랙이 짧은 트랙의 클러스터를 ‘훔쳐’ 버리는 구조적 문제에서 기인한다.
이를 해결하기 위해 저자들은 세 단계의 개선(Phase I, Phase II, Phase III)을 설계하였다. Phase I에서는(1) 루프 트랙의 다리(leg) 병합을 일시적으로 비활성화하고, 각 다리를 독립적인 트랙으로 처리함으로써 클러스터 손실을 방지한다. (2) 클러스터 공유 판단을 외부 패드 로우부터 내부 로우 순으로 진행해, 내부 로우에서 더 많은 공유를 허용한다. (3) 기존 3‑iteration 피팅에서 인터폴레이션을 첫 번째 인워드 반복으로 이동시켜, 두 번째 아웃워드 반복에서 위치·공분산을 저장하고, 세 번째 반복에서 χ² 기반 클러스터 거부를 수행한다. 이 구조는 초기 파라미터가 부정확해도 인터폴레이션이 안정적으로 작동하도록 하여 ‘도미노 효과’를 억제한다.
Phase II에서는 트랙 재구성을 강화한다. 모든 트랙을 인워드·아웃워드로 외삽(extrapolation)하고, 섹터 경계까지 연장해 내부 패드 로우에 누락된 클러스터를 찾아낸다. 외삽 단계에서 얻은 후보 클러스터는 기존 셀룰러 오토마톤 기반 후보와 동일한 이중 후보 해결 절차에 투입되며, 필요시 더 엄격한 χ² 컷을 적용한다. 또한, 시드 단계에서 남은 클러스터에 대해 다중 반복 시드를 수행해 재시드(seeding) 효율을 높인다.
GPU 프레임워크 측면에서는 런타임 컴파일(RTC)을 도입해 하드웨어 특성(코어 수, 메모리 대역폭, 워프 크기 등)에 최적화된 커널을 동적으로 생성한다. 이는 동일 코드 베이스가 온라인 팜(EPN)과 오프라인 그리드 GPU 자원 모두에서 최적 성능을 발휘하도록 하며, 메모리 레이아웃 재구성 및 워프 다이버전스 최소화에 기여한다.
실험 결과는 Figure 1과 Figure 2에 요약된다. Phase I 적용 후 ITS‑TPC 매칭 효율이 특히 높은 점유율 구간(>0.8)에서 2배 이상 회복되었으며, 가짜 트랙 비율은 50 % 상승했지만 전체 클러스터 연결률은 5.4 % 증가했다. Phase II는 가짜 클러스터 부착률을 1.51 %→1.78 %로 약간 악화시키는 반면, 매칭 효율과 클러스터 연결률을 추가로 향상시킨다. 전반적으로 원본 알고리즘 대비 저 pₜ 트랙에서 효율이 10 % 이상 개선되고, 가짜 및 클론 비율은 크게 감소한다.
결론적으로, 고점유율 연속 TPC 데이터 환경에서 GPU 기반 트래킹을 실시간·오프라인 모두에 적용하기 위해서는 (1) 클러스터 공유 정책의 세밀한 재조정, (2) 인터폴레이션·외삽을 활용한 다단계 피팅, (3) 런타임 컴파일을 통한 하드웨어 적응형 커널 최적화가 핵심임을 입증한다. 향후 작업은 가짜 클러스터 억제를 위한 휴리스틱 개발과, Phase III(전체 파이프라인의 GPU 전이) 구현을 통해 전체 재구성 파이프라인을 완전 GPU‑only로 전환하는 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기