동적 그래프 이상 탐지를 위한 균형 잡힌 이고 그래프 확산 모델
초록
본 논문은 정적 전이학습 방식과 극심한 클래스 불균형 문제를 동시에 해결하기 위해, 이고-그래프 수준에서 동적 구조를 모델링하고 균형 잡힌 합성 데이터를 생성하는 BAED 프레임워크를 제안한다. 이고-그래프 확산 모델과 커리큘럼 기반 이상 증강 메커니즘을 결합해, 인덕티브 그래프 이상 탐지 성능을 크게 향상시킨다.
상세 분석
BAED는 두 가지 핵심 모듈로 구성된다. 첫 번째는 “이코-그래프 디스크리트 확산 모델”(Discrete Ego‑graph Diffusion Model)이다. 기존 확산 모델은 전체 그래프를 연속적인 잠재공간에 매핑하고 노이즈를 추가·제거하는 방식으로, 지역 구조 정보를 충분히 보존하지 못한다. BAED는 이코-그래프 단위로 이산적인 전이 과정을 정의한다. 구체적으로, 각 이코-그래프는 노드 집합 V_i^K와 그에 대응하는 서브그래프 G_i^K 로 표현되며, 전방 과정에서는 무작위 엣지 추가·삭제를 통해 노이즈를 주입하고, 역방향 과정에서는 학습된 파라미터 θ를 이용해 원본 이코-그래프 분포를 복원한다. 이때 손실 함수는 실제 이상 이코-그래프와 합성된 이코-그래프 사이의 구조적 차이를 최소화하도록 설계되며, 그래프 구조의 위상적 특성(예: 클러스터링 계수, 평균 경로 길이)과 노드 특성(속성 벡터)의 일치도를 동시에 고려한다.
두 번째 모듈은 “커리큘럼 이상 증강”(Curriculum Anomaly Augmentation)이다. 학습 초기에 모델은 정상 샘플에 비해 매우 적은 수의 이상 샘플만을 접한다. 이를 보완하기 위해 BAED는 매 학습 이터레이션마다 현재 모델의 손실 분포를 분석한다. 손실이 크게 나타나는 이상 유형(예: 구조적 변조, 속성 위조 등)에 가중치를 부여하고, 해당 유형에 맞는 이코-그래프를 확산 모델을 통해 추가 생성한다. 가중치는 지수 이동 평균 방식으로 업데이트되어, 학습이 진행될수록 점진적으로 어려운 샘플에 집중한다. 이렇게 동적으로 조정되는 합성 데이터 비율은 전체 배치에서 정상:이상 비율을 사전에 정의한 균형 비율(예: 1:1)로 맞추면서도, 각 이상 유형별 대표성을 유지한다.
모델 레이어 설계 측면에서 BAED는 기존 GNN(예: GraphSAGE, GCN)을 그대로 활용한다. 인덕티브 설정에서는 각 노드의 K‑hop 이코-그래프만을 입력으로 사용하고, 최종 임베딩 h_i^K는 해당 노드 임베딩과 전체 이코-그래프 평균 임베딩의 차이(Deviation)로 정의한다. 이는 정상 노드와 이상 노드 사이의 분포 차이를 강조하는 효과가 있다. 또한, 가이드 임베딩 생성기(GIN)는 합성된 이상 이코-그래프를 별도의 GNN에 통과시켜 “가이드 벡터”를 추출하고, 이 벡터는 손실 가중치와 결합돼 역전파 시 강조 학습을 유도한다.
이론적 분석에서는 베르누이 노이즈 모델을 기반으로 전방·역방향 과정의 마코프 성질을 증명하고, 커리큘럼 증강이 최적화 경로를 더 평탄하게 만들어 로컬 최소점에 빠지는 위험을 감소시킴을 보였다. 실험에서는 5개의 공개 데이터셋(예: DGraph, ACM, Reddit 등)에서 기존 최첨단 인덕티브 GAD 모델(예: ANOMALOUS, CARE‑GNN) 대비 평균 AUC가 4.2%p 상승했으며, 특히 0.5% 이하의 이상 비율을 가진 데이터에서 개선 폭이 크게 나타났다.
요약하면, BAED는 (1) 이코-그래프 수준에서 구조적 정보를 보존하는 이산 확산 모델, (2) 학습 진행 상황에 따라 동적으로 샘플을 생성·가중치 조정하는 커리큘럼 증강, (3) 가이드 임베딩을 통한 손실 집중 메커니즘을 결합해, 동적 그래프와 극심한 클래스 불균형이라는 두 핵심 난제를 동시에 해결한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기