그래프 독학 공격: GraphToxin을 통한 전체 그래프 복원
초록
GraphToxin은 그래프 언러닝 과정에서 남는 미세한 구조적 신호를 이용해 삭제된 노드와 그 주변 연결까지 완전 복원하는 공격이다. 곡률 매칭 모듈을 도입해 미세한 위상 변화를 정밀히 추정하고, 단일·다중 노드 삭제 상황을 모두 공백-박스와 화이트-박스 환경에서 성공적으로 수행한다. 실험 결과 기존 방어 기법은 거의 무력화되며, 일부 경우 오히려 공격 성능을 높인다.
상세 분석
본 논문은 그래프 언러닝(Graph Unlearning)이라는 프라이버시 보호 메커니즘의 근본적인 취약점을 체계적으로 탐구한다. 기존 연구들은 주로 모델 파라미터를 재학습하거나 손실 함수에 정규화 항을 추가하는 방식으로 삭제된 노드의 영향을 최소화하려 했지만, 그래프 구조 자체가 갖는 고유한 위상 정보가 완전히 사라지지는 않는다. GraphToxin은 이러한 잔여 위상 정보를 “곡률”이라는 수학적 개념으로 정량화한다. 구체적으로, 각 노드와 이웃 사이의 거리와 연결 강도를 기반으로 로컬 그래프 곡률을 계산하고, 언러닝 전후의 곡률 차이를 최소화하는 최적화 문제를 설정한다. 이 과정에서 미분 가능한 그래프 신경망(GNN) 모델을 활용해 역전파를 수행함으로써, 삭제된 노드와 그 주변 구조가 남긴 미세한 흔적을 추정한다.
공격자는 두 가지 시나리오를 고려한다. 화이트-박스에서는 언러닝된 모델의 파라미터와 그래프 구조, 그리고 언러닝 알고리즘까지 모두 알 수 있다. 이 경우 곡률 매칭 모듈을 직접 삽입해 손실 함수를 설계하고, 그래디언트 기반 최적화로 삭제된 서브그래프를 복원한다. 블랙-박스에서는 모델 출력(예: 노드 임베딩 또는 예측 라벨)만을 관찰할 수 있다. 여기서는 쿼리 기반 탐색과 메타-학습 기법을 결합해, 관측된 출력과 곡률 차이를 연결짓는 프록시 손실을 정의한다. 다중 노드 삭제 상황에서도 동일한 프레임워크를 확장해, 삭제된 노드 집합 전체에 대한 곡률 매칭을 동시에 수행한다.
실험에서는 Cora, Citeseer, PubMed 등 표준 노드 분류 데이터셋과, 실제 소셜 네트워크 데이터(예: Reddit, OGB)에서 다양한 GNN 아키텍처(GCN, GraphSAGE, GAT)를 대상으로 평가했다. 결과는 두드러졌다. 단일 노드 삭제 시 평균 복원 정확도가 85% 이상이며, 다중 노드(10%까지) 삭제에서도 70% 이상의 정확도를 유지한다. 특히, 기존 방어인 파라미터 노이즈 추가나 미니배치 재학습은 곡률 차이를 줄이는 데 거의 효과가 없었고, 오히려 모델 파라미터가 더 안정화돼 곡률 추정이 쉬워지는 부작용을 보였다.
논문은 또한 최악의 경우 시나리오를 정의한다. 공격자는 가장 영향력 큰(고도 중심성, 높은 연결도) 노드를 목표로 삼아, 삭제 전후의 곡률 변화를 최대화한다. 이를 통해 “worst‑case node removal” 평가 프레임워크를 제시하고, 기존 방어가 이 경우에도 무력함을 입증한다.
핵심 인사이트는 다음과 같다. 첫째, 그래프 구조는 파라미터 수준보다 더 강인한 프라이버시 누수 경로를 제공한다. 둘째, 곡률이라는 미세한 위상 특성을 이용하면, 모델이 학습한 임베딩이 아닌 원시 그래프 자체에서 정보를 추출할 수 있다. 셋째, 현재의 방어 메커니즘은 파라미터 중심 설계에 머물러 있어, 구조 기반 공격을 방어하기엔 근본적인 설계 변화가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기