프로세스 접미사 비교를 위한 효율적 거리 가지치기

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 정의된 피벗 집합을 이용해 삼각 부등식을 적용, 접미사 간 거리 계산을 사전 차단함으로써 대규모 프로세스 로그에서의 접미사 비교 비용을 크게 낮추는 방법을 제안한다. 피벗 선택은 k‑센터 문제의 근사 해법으로 수행되며, pruning은 정확성을 손상시키지 않는다. 실험 결과 150 000개의 접미사를 89시간에서 2.5시간으로 단축했으며, 완전 병렬화가 가능함을 보였다.

상세 분석

논문은 사전 예측형 프로세스 모니터링에서 핵심적인 “접미사 비교” 작업이 로그 규모가 커짐에 따라 거리 계산량이 급증한다는 문제점을 지적한다. 이를 해결하기 위해 저자는 삼각 부등식 ( |d(x,z)-d(y,z)| \le d(x,y) \le d(x,z)+d(y,z) ) 를 활용, 다수의 피벗 (z_k) 에 대한 사전 거리값을 이용해 하한과 상한을 동시에 계산한다. 하한이 사전 정의된 임계값 τ 보다 크면 실제 거리 계산을 생략하고, 상한이 τ 이하이면 바로 매칭으로 인정한다는 두 단계 pruning 전략은 기존의 단일 피벗 방식보다 훨씬 높은 차단 비율을 제공한다.

피벗 집합 P 의 선택은 전체 접미사 공간 S 를 효과적으로 커버하도록 설계된다. 저자는 이를 k‑센터 문제로 모델링하고, NP‑hard 특성에도 불구하고 “가장 먼 점” 탐욕적 히어리스틱을 적용해 K개의 피벗을 선정한다. 이 과정에서 피벗 간 거리를 최대화함으로써 각 접미사가 최소 하나의 피벗에 가까이 위치하도록 보장한다. 결과적으로 각 접미사‑피벗 거리 행렬 |S| × K 가 한 번만 계산되면 다중 쿼리에서 재사용 가능해 전체 연산량이 급격히 감소한다.

실험에서는 약 150 000개의 접미사를 대상으로 기존의 전수 비교 방식이 89시간을 소요한 반면, 제안된 방법은 500개 배치당 2.5시간, 전체는 약 3시간 내에 처리한다. 중요한 점은 pruning이 “정확”하다는 것으로, 모든 반환된 접미사는 전수 비교 결과와 일치했으며, 100 % 정확도가 보고되었다. 또한 구현이 완전 병렬화 가능하도록 설계돼 멀티코어·클러스터 환경에서 선형 확장성을 기대할 수 있다.

이 논문의 주요 기여는 다음과 같다. 첫째, 거리 기반 메트릭을 활용한 pruning이 프로세스 마이닝 분야에 적용 가능함을 증명했다. 둘째, 피벗 선택을 위한 실용적인 근사 알고리즘을 제시해 실제 로그에 쉽게 적용할 수 있게 했다. 셋째, 실험을 통해 연산 시간 감소와 정확도 보존을 동시에 달성했으며, 이는 실시간 혹은 대규모 사전 예측형 모니터링 시스템 구축에 직접적인 영향을 미친다. 마지막으로, 제안 기법은 k‑NN, 범위 검색 등 다양한 거리 기반 검색 작업에 일반화될 수 있어 향후 연구와 산업 적용에 폭넓은 확장성을 제공한다.

프로세스 접미사 비교를 위한 효율적 거리 가지치기

초록

상세 분석

댓글 및 학술 토론

의견 남기기