정상 프로토타입과 대비하는 해석 가능한 그래프 수준 이상 탐지
초록
ProtoGLAD는 그래프 수준 이상 탐지를 위해 데이터셋 내 실제 정상 그래프를 프로토타입으로 선택하고, 이와의 유사도를 기반으로 이상 여부를 판단한다. WL‑Isolation 커널을 이용해 노드 임베딩을 얻고, 점‑집합 커널로 고밀도 프로토타입을 탐색·클러스터링한다. 탐지된 이상 그래프는 가장 가까운 정상 프로토타입과의 노드‑레벨 내적을 통해 설명 가능성을 제공한다. 실험에서 기존 최첨단 GLAD 방법과 경쟁하는 성능을 보이며, 인간이 이해하기 쉬운 프로토타입 기반 설명을 제공한다.
상세 분석
ProtoGLAD는 그래프 수준 이상 탐지(GLAD) 문제를 “정상 프로토타입 대비”라는 직관적인 프레임워크로 재정의한다. 핵심 아이디어는 데이터셋 내에서 다수의 정상 그래프를 군집화하고, 각 군집의 대표 그래프(프로토타입)를 실제 그래프 형태로 확보함으로써, 이상 그래프를 “모든 정상 군집과의 유사도”가 낮은 경우로 정의하는 것이다. 이를 위해 논문은 세 가지 주요 기술을 결합한다. 첫째, 노드 특성을 Isolation Kernel(IK)로 매핑한 뒤, Weisfeiler‑Lehman(WL) 스키마를 적용해 노드 임베딩을 반복적으로 갱신한다. IK는 데이터 의존적이며 유한 차원의 특징 맵을 제공해 지역 밀도에 민감한 유사도 측정을 가능하게 한다. 둘째, 그래프 전체 임베딩은 해당 그래프에 속한 모든 노드 임베딩의 평균으로 정의되며, 두 그래프 간 유사도는 이 평균 임베딩 간 내적으로 계산된다. 셋째, 점‑집합 커널 ˆK를 도입해 단일 그래프와 그래프 집합(클러스터) 사이의 유사도를 측정한다. ˆK는 그래프 임베딩과 클러스터 평균 임베딩 간 내적으로 구현되며, 이는 기존 커널 평균 맵(MKM)과 동일한 형태이지만 IK‑WL 임베딩을 사용해 효율성과 해석성을 동시에 확보한다. 프로토타입 탐색 알고리즘은 고밀도 점을 먼저 선택하고, 성장률 ρ와 유사도 임계값 τ에 따라 주변 점들을 클러스터에 흡수한다. 이 과정을 남은 점이 없을 때까지 반복해 k개의 정상 클러스터와 해당 프로토타입을 얻는다. 이상 점수는 각 그래프가 가장 높은 유사도를 보이는 클러스터와의 ˆK 값이며, 낮은 점수는 모든 정상 클러스터와의 거리가 멀다는 의미다. 설명 메커니즘은 이상 그래프와 가장 유사한 프로토타입을 찾은 뒤, 각 노드의 임베딩과 프로토타입 전체 임베딩 간 내적을 계산해 노드‑레벨 정상성 점수를 산출한다. 낮은 점수는 해당 노드가 정상 프로토타입과의 정렬이 부족함을 나타내어, 이상 원인으로 직관적으로 해석할 수 있다. 실험에서는 8개의 TUDataset 그래프 데이터셋을 사용해, WL‑iForest, OCSVM‑WL, DeepSVDD 등 6개의 최신 무감독 GLAD 방법과 비교하였다. ProtoGLAD는 평균 AUC 점수에서 경쟁력을 유지하면서도, 프로토타입 기반 설명을 제공함으로써 실무 적용 시 신뢰성을 크게 향상시킨다. 한계점으로는 클러스터 수 k를 사전에 지정해야 하는 점과, 고차원 노드 특성에 대한 IK 매핑 비용이 다소 높을 수 있다는 점이 있다. 향후 연구에서는 자동 k 추정 및 경량화된 IK 변형을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기