멀티뷰 텐서 분해를 이용한 그래프 응축 기법
초록
본 논문은 기존 그래프 응축 방법이 요구하는 고비용 이중 최적화를 피하고, 텐서 분해를 활용해 원본 그래프의 구조와 특성을 보존하면서도 크기를 크게 축소하는 새로운 프레임워크 GCTD를 제안한다. 다중 뷰(무작위 엣지 변형) 그래프를 3차 텐서로 구성하고 RESCAL 기반 텐서 분해를 수행해 잠재 클러스터를 추출, 이를 기반으로 합성 노드를 생성한다. 실험 결과, 6개 데이터셋에서 압축 비율을 유지하면서 GNN 성능을 기존 방법과 동등하거나 4%까지 향상시켰다.
상세 분석
GCTD는 그래프 응축을 “데이터 압축” 문제로 재정의하고, 텐서 분해라는 선형/다중선형 모델을 적용한다는 점에서 혁신적이다. 기존 연구들은 그래프와 노드 특성을 보존하기 위해 그래디언트 매칭, 트레이닝 트래젝터리 매칭 등 복잡한 바이레벨 최적화를 사용했으며, 이는 삼중 루프 구조로 인해 시간·메모리 비용이 크게 증가한다. 반면 GCTD는 원본 인접 행렬 A_T에 무작위 엣지 교란을 가해 K개의 변형 그래프를 만들고, 이를 (N×N×K) 텐서 X에 스택한다. 이후 RESCAL(특히 코어 텐서는 R∈ℝ^{R×R×K}, U∈ℝ^{N×R})을 적용해 X≈R×₁U×₂U 형태로 근사한다. 여기서 U는 노드의 잠재 클러스터 할당을, R_k는 각 뷰별 클러스터 간 관계를 나타낸다. 텐서 분해 과정은 전통적인 ALS(Alternating Least Squares) 혹은 SGD 기반 최적화로 수행되며, 비선형 GNN을 전혀 사용하지 않기 때문에 GPU 메모리 요구량이 크게 낮아진다.
분해 후, U의 행벡터를 K‑Means(또는 Faiss 기반 빠른 클러스터링)로 군집화해 N’개의 합성 노드를 정의한다. 각 클러스터에 속한 원본 노드들의 라벨, 스플릿(train/val/test), 그리고 특성은 다수결 및 평균 방식으로 집계한다. 이렇게 얻어진 합성 그래프 G_S=(A_S,X_S,Y_S)는 원본 그래프와 동일한 노드 특성 차원을 유지하면서, A_S는 U·R·Uᵀ를 통해 재구성된다.
실험에서는 Cora, Citeseer, Pubmed, ogbn‑arxiv, ogbn‑proteins, Reddit 등 6개 데이터셋에 대해 GCTD와 기존 대표적인 응축 기법(GCond, SGDD, GCSR, DosCond 등)을 비교했다. 압축 비율을 1%~5% 수준으로 설정했을 때, GCTD는 평균 2.3%4.0%의 정확도 향상을 보였으며, 특히 대규모 그래프(arxiv, proteins)에서 메모리 사용량과 학습 시간에서 현저한 절감 효과를 나타냈다. 또한 단일 뷰(단일 변형)와 비교했을 때, 다중 뷰(35개의 변형) 사용이 성능 향상에 기여함을 확인했다.
한계점으로는 텐서 차원이 K(뷰 수)에 비례해 메모리 요구가 증가한다는 점과, RESCAL이 코어 텐서의 3차원 압축을 지원하지 않기 때문에 뷰 차원은 그대로 유지한다는 구조적 제약이 있다. 또한, 클러스터링 단계에서 K‑Means 초기화에 따라 결과가 다소 변동될 수 있어, 안정적인 초기화 전략이 필요하다. 향후 연구에서는 CP 또는 Tucker와 같은 보다 일반적인 텐서 분해 모델을 적용해 코어 텐서 압축을 시도하거나, 그래프 구조에 특화된 정규화(예: 라플라시안 정규화)를 도입해 클러스터 품질을 높이는 방안을 모색할 수 있다.
전반적으로 GCTD는 그래프 응축 분야에 새로운 패러다임을 제시하며, 고비용 바이레벨 최적화 없이도 실용적인 압축 성능과 해석 가능성을 동시에 제공한다는 점에서 큰 의의를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기