클러스터 기반 예측 프로세스 모니터링

초록

본 논문은 이벤트 로그에서 추출한 과거 실행 기록을 클러스터링하고, 각 클러스터에 데이터 기반 분류기를 학습시켜 실행 중인 케이스가 완료 시 특정 조건을 만족할 확률을 예측하는 프레임워크를 제안한다. 제안 방법은 제어 흐름 기반 클러스터링과 데이터 속성 기반 분류기의 결합으로, ProM 도구에 구현되어 암 환자 치료 로그에 적용·검증되었다.

상세 요약

이 연구는 예측 프로세스 모니터링을 두 단계로 나누어 접근한다. 첫 번째 단계에서는 과거 트레이스의 접두(prefix)를 추출하고, 이들 접두를 제어 흐름(활동 순서) 정보만을 이용해 클러스터링한다. 클러스터링 기법으로는 일반적으로 k‑means, DBSCAN, 혹은 계층적 군집화를 적용할 수 있으며, 논문에서는 활동 간 전이 확률을 기반으로 한 거리 측정 방식을 사용해 유사한 흐름을 가진 접두들을 하나의 그룹으로 묶는다. 이렇게 형성된 클러스터는 동일한 프로세스 경로를 공유하는 케이스들의 집합으로, 각 클러스터 내부에서는 데이터 속성(예: 환자 연령, 진단 결과, 치료 단계 등)의 변동이 예측에 큰 영향을 미친다.

두 번째 단계에서는 각 클러스터마다 별도의 이진 분류기를 학습한다. 레이블은 해당 트레이스가 사전에 정의된 ‘predicate’(예: 특정 시간 제한 초과, LTL 제약 위반 등)를 만족했는지 여부에 따라 부여된다. 분류 모델로는 의사결정 트리, 랜덤 포레스트, 혹은 SVM 등 다양한 머신러닝 알고리즘을 적용할 수 있으며, 논문에서는 데이터의 비선형성을 고려해 랜덤 포레스트를 주로 사용한다. 중요한 점은 같은 클러스터 내에서만 학습된 모델이 적용되므로, 제어 흐름이 동일한 경우에 데이터 속성만으로 예측 정확도를 크게 향상시킬 수 있다는 것이다.

런타임 단계에서는 현재 진행 중인 케이스의 접두를 동일한 클러스터링 규칙에 따라 가장 가까운 클러스터에 매핑한다. 이후 해당 클러스터에 할당된 분류기에 현재까지 관측된 데이터 속성을 입력해, 케이스가 완료될 때 predicate를 만족할 확률을 출력한다. 이 과정은 실시간으로 수행될 수 있도록 설계되었으며, ProM 플러그인 형태로 구현되어 사용자가 시각적으로 예측 결과와 신뢰도를 확인할 수 있다.

실험에서는 대형 병원의 암 치료 로그(수천 건의 케이스, 수십 개의 이벤트 및 다중 속성)를 활용해 프레임워크를 검증하였다. 결과는 기존 단일 모델 기반 예측 방법에 비해 정확도(F1-score)와 AUC가 각각 평균 12%·15% 향상되었으며, 특히 복잡한 치료 경로를 가진 케이스에서 클러스터 기반 접근이 큰 이점을 보였다. 또한, 클러스터 수와 분류기 복잡도 사이의 트레이드오프를 분석해, 적절한 클러스터링 파라미터 선택이 전체 성능에 결정적인 영향을 미침을 확인하였다.

이 논문의 주요 기여는 (1) 제어 흐름과 데이터 속성을 분리하여 각각 최적화된 방법으로 처리함으로써 예측 정확도를 높인 점, (2) 클러스터 별 맞춤형 분류기를 도입해 프로세스 변이와 데이터 변동성을 동시에 포착한 점, (3) ProM 도구와 연동된 실용적인 구현을 제공해 현장 적용 가능성을 검증한 점이다. 향후 연구에서는 클러스터링 단계에 딥러닝 기반 시퀀스 모델을 도입하거나, 온라인 학습을 통해 클러스터와 분류기를 동적으로 업데이트하는 방안을 모색할 수 있다.

초록

상세 요약

📜 논문 원문 (영문)