스트리밍 프로세스 마이닝 도전 과제 AVOCADO
초록
AVOCADO는 스트리밍 프로세스 마이닝 알고리즘을 평가하기 위한 표준화된 프레임워크로, 개념층과 구현층을 명확히 구분하고 정확도, MAE, RMSE, 처리 지연, 견고성 등 실시간 특화 지표를 제공한다. 합성 데이터와 개념 드리프트, 순서 뒤섞임 등 현실 스트림의 복잡성을 반영한 평가 절차와 알고리즘 제출 규격을 정의함으로써 연구 커뮤니티의 협업과 혁신을 촉진한다.
상세 분석
AVOCADO 프레임워크는 스트리밍 프로세스 마이닝 분야의 핵심 난제를 체계화하려는 시도로, 기존 오프라인 프로세스 디스커버리 콘테스트(PDC)와 차별화된 구조를 제시한다. 가장 큰 특징은 **개념층(concept layer)**과 **구현층(instantiation layer)**을 명확히 분리함으로써, 문제 정의와 해결 방안을 독립적으로 설계·평가할 수 있게 한 점이다. 개념층에서는 스트리밍 환경에서 요구되는 ‘연속 모델 생성’, ‘실시간 컨포먼스 평가’, ‘개념 드리프트 대응’ 등을 정의하고, 구현층에서는 이러한 요구를 충족시키는 구체적인 알고리즘과 데이터 파이프라인을 제공한다.
논문은 스트리밍 로그의 특성을 ‘무한·연속·불완전·노이즈·드리프트’로 정리하고, 이를 반영한 합성 스트림 생성 절차를 제시한다. 두 개의 기본 프로세스(p, k)를 무작위로 생성하고, 이들의 활동 집합을 85 % 이상 겹치게 하면서 직접 후속 관계는 서로 다르게 만든 뒤, 이를 합쳐 w라는 중간 로그를 만든다. 이후 p → w → k 순서로 드리프트가 발생하는 스트림을 구성하고, 각 이벤트에 대해 1, 0.5, 0 등으로 정의된 ground‑truth 컨포먼스 값을 부여한다. 이 설계는 알고리즘이 순차적으로 학습·예측·평가되는 전 과정을 자동화하고, 드리프트 감지와 적응 능력을 정량화할 수 있게 한다.
평가 지표는 전통적인 정확도 외에도 MAE, RMSE, Processing Latency, Robustness를 포함한다. 특히 MAE와 RMSE는 연속적인 컨포먼스 점수의 예측 오차를 측정함으로써, 단순 이진 정확도보다 미세한 성능 차이를 드러낼 수 있다. 처리 지연은 실시간 시스템에서 필수적인 응답 시간 제한을 반영하고, 견고성은 노이즈·드리프트 상황에서 성능 저하 정도를 평가한다. 논문은 향후 Throughput과 Memory Consumption 같은 시스템 수준 메트릭을 추가할 것을 제안하며, 이는 실제 운영 환경에서의 확장성을 검증하는 데 중요하다.
알고리즘 제출 규격도 상세히 정의한다. 참가자는 BaseAlgorithm 인터페이스를 구현하고, learn 메서드에서 워밍업 스트림을 학습한 뒤, conformance 메서드에서 각 이벤트에 대한 실시간 컨포먼스 점수를 반환해야 한다. CPU 전용 실행을 강제하고, GPU 의존성을 배제함으로써 평가 환경의 일관성을 확보한다. 또한, 상위 레벨 스크립트 없이 자동 실행 가능한 패키지 구조를 요구해 재현성을 높인다.
관련 연구 검토에서는 기존 드리프트 탐지, 선언적 모델링, 온라인 컨포먼스 체크 등 개별 기술들을 소개하지만, 이들 대부분이 단일 문제에 초점을 맞추어 전체 스트리밍 파이프라인을 포괄하지 못한다는 한계를 지적한다. AVOCADO는 이러한 격차를 메우기 위해 통합적인 평가 플랫폼을 제공함으로써, 알고리즘이 정확도·자원 효율·드리프트 적응을 동시에 만족하도록 유도한다.
전반적으로 AVOCADO는 스트리밍 프로세스 마이닝 연구에 필요한 표준 데이터·평가·제출 인프라를 구축하고, 커뮤니티가 공동으로 도전 과제를 확장·보완할 수 있는 개방형 생태계를 제시한다. 이는 학술적 비교뿐 아니라 산업 현장 적용을 위한 실용적 로드맵을 제공한다는 점에서 큰 의미를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기