데이터 증강과 시암쌍 학습을 활용한 예측 프로세스 모니터링
초록
본 논문은 실제 비즈니스 프로세스 로그의 데이터 부족 문제를 해결하기 위해, 통계적으로 근거된 세 가지 변환 기법을 이용한 데이터 증강과 BYOL 기반 시암쌍 자기지도 학습을 결합한 SiamSA‑PPM 프레임워크를 제안한다. 증강된 트레이스 쌍을 통해 라벨이 없는 프리픽스의 표현을 학습하고, 이를 다음 활동 예측과 최종 결과 예측에 미세조정함으로써 기존 최첨단 모델보다 경쟁력 있거나 우수한 성능을 달성한다.
상세 분석
SiamSA‑PPM은 두 핵심 요소, 즉 통계 기반 데이터 증강과 시암쌍 자기지도 학습(BYOL)을 결합한다. 데이터 증강 단계에서는 원본 로그에서 빈번히 등장하는 직접 후속 관계(B→C)와 그 사이에 삽입될 수 있는 중간 서열(π)을 추출한다. 세 가지 변환인 StatisticalInsertion, StatisticalDeletion, StatisticalReplacement은 각각 삽입, 삭제, 교체를 수행하며, 모든 변환은 활동 빈도 임계값(α, β, γ, δ)과 최대 중간 길이(λ_max)이라는 파라미터에 의해 제어된다. 이 과정은 프로세스 제어 흐름을 위배하지 않으면서도 트레이스 다양성을 크게 향상시킨다.
학습 단계에서는 BYOL 구조를 채택한다. 두 개의 인코더(온라인, 타깃)와 프로젝터가 각각 증강된 프리픽스를 입력받아 잠재 표현을 생성하고, 온라인 네트워크의 출력이 타깃 네트워크의 출력에 가까워지도록 L2 손실을 최소화한다. BYOL은 음성 샘플을 필요로 하지 않아 배치 크기가 작고, 프로세스 로그와 같이 구조화된 작은 데이터셋에 적합하다. 또한, 모멘텀 업데이트를 통해 타깃 네트워크가 안정적인 목표를 제공한다.
실험은 8개의 실제 비즈니스 로그(예: 주문‑배송, 보험 청구 등)를 대상으로 진행되었으며, 두 가지 다운스트림 태스크인 다음 활동 예측과 최종 결과 예측에 대해 기존 LSTM, Transformer, 그리고 최근의 데이터 증강 기반 모델과 비교하였다. 결과는 평균 정확도와 F1 점수에서 SiamSA‑PPM이 대부분의 경우 2~5%p 상승했으며, 특히 클래스 불균형이 심한 최종 결과 예측에서 두드러진 개선을 보였다. Ablation study에서는 무작위 변환(Random) 대비 통계 기반 변환이 데이터 다양성(KL divergence)과 모델 일반화에 크게 기여함을 확인하였다.
한계점으로는 빈번한 패턴에 의존하는 변환이 드물게 발생하는 예외 흐름을 충분히 포착하지 못할 가능성이 있으며, 파라미터 α~δ 설정이 도메인 전문가의 사전 지식에 의존한다는 점이다. 향후 연구에서는 베이지안 최적화나 메타러닝을 통해 파라미터 자동 튜닝을 시도하고, 생성 모델(GAN, VAE)과 결합해 희귀 경로를 합성하는 방안을 모색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기