극한 결측 상황에서도 강인한 그래프 특성 복원을 위한 분수 서브그래프 확산과 클래스 인식 전파
초록
FSD‑CAP은 두 단계로 구성된 그래프 특성 결측값 보정 프레임워크이다. 첫 단계에서는 그래프 거리 기반 서브그래프 확장을 통해 지역적 확산 범위를 제한하고, 분수 차분 연산자를 도입해 전파 강도를 구조에 맞게 조절한다. 두 번째 단계에서는 의사 라벨과 이웃 엔트로피를 활용한 클래스‑aware 전파로 초기 복원 결과를 정제한다. 99.5 %의 특성 결측률에서도 노드 분류 정확도 80 % 수준, 링크 예측 AUC 92 % 수준을 달성하며, 대규모·이질성 그래프에서도 기존 방법들을 앞선다.
상세 분석
FSD‑CAP은 기존의 전역 확산 기반 결측값 보정 방법이 고결측률에서 발생하는 오류 전파와 과도한 스무딩 문제를 해결하고자 설계되었다. 핵심 아이디어는 (1) 분수 확산 연산자(A^γ) 를 도입해 인접 행렬의 원소를 γ 지수로 변형하고 행 정규화를 수행함으로써 전파의 ‘날카로움’을 조절한다. γ < 1이면 약한 연결까지 고르게 퍼뜨려 부드러운 확산을, γ > 1이면 강한 연결에 가중치를 집중시켜 국소적인 정보 흐름을 강화한다. 이 연산자는 γ→0 일 때 완전 균등 평균, γ→∞ 일 때 가장 큰 가중치 이웃으로의 결정적 라우팅으로 수렴한다는 정리와 명제(제1, 제2정리)를 통해 이론적 근거를 제공한다.
(2) 진보적 서브그래프 확산 은 관측된 특성 노드 집합 V⁺를 시작점으로, 최단 거리 기준으로 레이어(m)마다 반경 m 이내의 미관측 노드 V⁻를 점진적으로 포함한다. 각 레이어에서는 해당 서브그래프에 대해 A^γ 를 적용하고, 관측값은 마스크 M에 의해 고정한 채 미관측값은 현재 레이어의 추정값과 이전 레이어의 결과를 λ 비율로 블렌딩한다(식 4). 이 retention 메커니즘은 초기 단계에서 신뢰도 높은 지역 정보를 보존하고, 확산 범위가 확대될수록 누적 오류를 억제한다. 수렴성은 Theorem 2, Theorem 3을 통해 보장되며, 레이어 수 m이 그래프 직경에 도달하면 전체 그래프에 대한 전역 확산과 동일한 고정점을 얻는다.
(3) 클래스‑aware 정제(CAP) 단계는 초기 복원된 특성을 기반으로 반지도 학습용 GCN을 훈련시켜 의사 라벨 ˜y를 생성한다. 각 클래스 c에 대해 합성 클래스 노드를 도입하고, 해당 라벨을 가진 노드와 연결된 클래스‑전용 서브그래프를 만든 뒤, 클래스별 인접 행렬 W_c와 특성 행렬 X_c에 다시 분수 확산을 적용한다. 이때 이웃 엔트로피를 가중치로 사용해 불확실성이 큰 영역의 전파를 억제하고, 클래스 내부의 일관성을 강화한다. 결과적으로 클래스 경계에서의 과도한 스무딩을 방지하고, 고결측 상황에서도 의미 있는 특성 구분을 유지한다.
실험에서는 Cora, Citeseer, PubMed, ogbn‑arxiv 등 5개 벤치마크와 대규모·이질성 데이터셋을 대상으로, 구조적 결측(노드 전체 결측)과 균일 결측(특성 단위 랜덤 결측) 두 시나리오에서 99.5 % 결측률을 적용하였다. 노드 분류 정확도는 완전 관측 GCN(81.31 %)에 근접한 80.06 %/81.01 %를 기록했고, 링크 예측 AUC는 91.65 %/92.41 %를 달성해 기존 확산 기반 방법들(예: R‑Diffusion, SuperDiff)보다 3~5 %p 상승했다. 특히 이질성 그래프에서 클래스‑aware 정제가 큰 효과를 보였으며, 연산 비용은 서브그래프 단위로 제한돼 메모리 사용량이 전체 그래프 확산 대비 30 % 이하로 감소하였다.
요약하면, FSD‑CAP은 (i) 전파 강도를 구조에 맞게 조절하는 분수 확산, (ii) 관측 정보에 기반한 단계적 서브그래프 확산, (iii) 클래스 정보를 활용한 정제라는 세 가지 혁신적 메커니즘을 결합해, 극한 결측 상황에서도 안정적이고 의미 있는 그래프 특성 복원을 가능하게 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기