ATLAS 사용자 분석 작업을 웹으로 관리하는 대시보드 태스크 모니터
초록
본 논문은 ATLAS 실험 사용자들이 전 세계 LHC 컴퓨팅 그리드(WLCG) 상에서 수행하는 분석 작업을 실시간으로 모니터링하고, 웹 인터페이스를 통해 작업을 종료(kill)하거나 재제출(resubmit)할 수 있는 “Dashboard Task Monitor” 시스템을 소개한다. 인증은 X.509 Grid 인증서 기반이며, 세션 관리, 입력 파라미터 검증, SQL 인젝션 방지, XSS/CSRF 방어 등 보안 모델을 상세히 기술한다. 또한 hBrowse 프레임워크를 활용한 클라이언트‑서버 구조와 다양한 시각화 기능을 제공한다.
상세 분석
이 시스템은 ATLAS 사용자 분석 환경의 복잡성을 크게 완화한다. 기존에 PanDA와 GANGA 같은 워크로드 매니저가 제공하는 API를 활용하면서도, 별도의 운영체제나 그리드 클라이언트 설치 없이 웹 브라우저만으로 작업 현황을 확인하고 제어할 수 있다. 핵심 아키텍처는 세 부분으로 나뉜다. 첫 번째는 PanDA, GANGA, gLite WMS 등에서 수집된 작업 메타데이터를 ORACLE 기반 Dashboard Data Repository에 저장하는 ‘Collector’ 레이어이며, 두 번째는 이 데이터를 REST‑like 방식으로 제공하는 서비스 레이어, 마지막은 hBrowse 기반 MVC 패턴을 적용한 사용자 인터페이스 레이어다.
보안 측면에서 가장 눈에 띄는 점은 X.509 인증서와 SSL/TLS를 이용한 양방향 인증이다. 인증이 성공하면 서버는 난수 기반의 세션 ID를 생성하고, 이를 Dashboard Central Repository에 저장해 일정 시간(타임아웃) 후 자동 소멸시킨다. 세션 ID는 hidden field 로 POST 요청에 포함되며, CSRF 토큰과 결합해 요청 위조를 방지한다. 입력 파라미터는 모든 문자열을 화이트리스트와 정규식으로 검증하고, SQL 쿼리는 PreparedStatement와 바인드 변수를 사용해 인젝션을 차단한다. 또한, kill/ resubmit 명령은 요청자의 DN(Distinguished Name)과 작업 소유자의 DN을 비교해 일치할 경우에만 허용한다.
UI는 ‘View’와 ‘Manage’ 두 모드로 구분된다. View 모드에서는 자신과 동료의 작업을 그래프와 테이블 형태로 실시간 조회할 수 있으며, 사이트별 작업 분포, 실패 원인, 재제출 이력 등을 시각화한다. Manage 모드에서는 선택된 작업에 대해 전체 종료, 특정 사이트에서 실행 중인 작업만 종료, 개별 작업 선택 종료 등 세분화된 제어가 가능하다. UI는 AJAX 기반 비동기 통신으로 페이지 새로 고침 없이 데이터가 갱신되며, 필터링, 정렬, 페이지네이션, 북마크 등 사용자 친화적 기능을 제공한다.
감사 로그는 로컬 파일, CERN 중앙 보안 로깅 서버, Dashboard Central Repository에 복제돼, 관리자는 IP 주소, 요청 파라미터, 사용자 DN, PanDA 서버 응답 등을 포함한 상세 기록을 통해 사후 분석 및 문제 해결이 가능하도록 설계되었다. 이러한 다중 로그 저장은 보안 사고 발생 시 포렌식 분석을 용이하게 만든다.
전체적으로 이 시스템은 ATLAS 분석자에게 운영 효율성을 크게 향상시키는 동시에, 그리드 환경 특유의 보안 위험을 최소화한다는 점에서 의미가 크다. 향후 기능 확장으로는 UI에서 직접 재제출 기능을 제공하고, 자동화된 오류 복구 워크플로우와 머신러닝 기반 이상 탐지 모듈을 연계하는 방안이 제시되고 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기