HEP 데이터 보존을 위한 CRISTAL 기반 추적성 및 프로비넌스

초록

CRISTAL은 객체 수명주기 관리와 이벤트 추적을 통해 데이터 프로비넌스를 제공하는 시스템이다. 본 논문은 CMS ECAL 구축·보정 과정에서의 적용 사례와 neuGRID·N4U 프로젝트에서의 확장 사용을 소개하고, 이러한 경험을 바탕으로 HEP 장기 데이터 분석 및 보존 환경에서 CRISTAL 기반 프로비넌스와 트레이서빌리티를 구현할 가능성을 논의한다.

상세 분석

CRISTAL은 “Description‑Driven” 접근법을 채택해 메타데이터와 데이터 객체를 동일한 레이어에서 관리한다. 객체는 정의(Description)와 인스턴스(Instance)로 구분되며, 각각의 상태 전이와 이벤트는 고유 식별자를 통해 기록된다. 이러한 설계는 데이터와 그 변천 과정을 일관되게 추적할 수 있게 하며, 프로비넌스 정보를 자동으로 수집한다는 점에서 기존의 파일‑기반 로그 시스템보다 뛰어나다. CMS ECAL 프로젝트에서는 센서 모듈의 제작·교정 단계마다 발생하는 측정값, 시험 결과, 담당 엔지니어 정보 등을 CRISTAL에 저장했으며, 각 단계는 ‘활동(Activity)’과 ‘전이(Transition)’로 모델링되어 나중에 물리 분석에 필요한 메타데이터를 즉시 조회할 수 있었다.

neuGRID와 N4U 프로젝트에서는 의료 영상 분석 파이프라인을 CRISTAL에 매핑함으로써 복잡한 워크플로우와 파라미터 변화를 상세히 기록했다. 특히 N4U Analysis Service는 사용자 정의 분석을 캡처하고, 결과와 입력 데이터 간의 관계를 그래프 형태로 저장해 재현성을 크게 향상시켰다. 이러한 사례는 CRISTAL이 도메인에 특화된 스키마 없이도 유연하게 데이터 모델을 확장할 수 있음을 보여준다.

HEP 분야에 적용할 때는 두 가지 핵심 요구가 있다. 첫째, 수십 억 건에 달하는 이벤트와 파라미터를 실시간으로 기록하면서도 저장 비용을 최소화해야 한다. 둘째, 장기 보존을 위해 데이터와 메타데이터가 독립적인 시스템(예: CERN Open Data Portal)과 연동될 수 있어야 한다. CRISTAL의 레이어드 아키텍처는 이러한 요구를 충족시킬 수 있다. 메타데이터는 XML/JSON 기반의 Description으로 정의되며, 백엔드 스토리지로는 관계형 DB, NoSQL, 혹은 파일 시스템을 선택적으로 연결한다. 또한, 이벤트 로그는 시계열 데이터베이스와 연동해 빠른 질의를 지원한다.

하지만 현재 CRISTAL은 대규모 분산 환경에서의 동시성 제어와 스케일아웃에 대한 검증이 부족하다. HEP 실험에서는 수천 개의 워크노드가 동시에 메타데이터를 기록하므로, 분산 트랜잭션 관리와 충돌 해결 메커니즘이 필요하다. 또한, 기존의 CMS ECAL 적용 사례는 비교적 정형화된 생산 라인에 국한돼 있어, 비정형 데이터(예: 시뮬레이션 로그, 사용자 정의 분석)와의 통합 방법론이 추가 연구 대상이다.

결론적으로, CRISTAL은 메타데이터 중심의 프로비넌스와 트레이서빌리티를 제공하는 강력한 프레임워크이며, HEP 장기 데이터 보존에 적용하기 위해서는 확장성, 인터페이스 표준화, 그리고 기존 그리드/클라우드 인프라와의 연동 전략을 구체화할 필요가 있다.