짧은 랜덤 워크에서도 향상된 NetGAN
본 논문은 NetGAN이 짧은 랜덤 워크를 사용할 때 초기 정점 선택에 따른 성능 변동성을 감소시키기 위해, 정점의 밀집도를 기반으로 시작 정점을 선정하는 새로운 방법을 제안한다. 정점의 영향력을 역으로 측정해 밀집 정점을 찾고, 이를 초기화에 활용함으로써 정확도, 변동성, ROC‑AUC 등 여러 지표에서 기존 무작위 초기화보다 월등히 좋은 결과를 얻었다.
저자: Amir Jalilifard, Vinicius Carida, Alex Mansano
본 논문은 최근 그래프 생성 분야에서 주목받고 있는 NetGAN 모델의 단점을 보완하고자 한다. NetGAN은 원 그래프에서 추출한 랜덤 워크 시퀀스를 GAN의 생성자와 판별기에 입력함으로써, 그래프 구조를 학습하고 새로운 그래프를 생성한다. 그러나 기존 NetGAN은 워크 시작 정점을 무작위로 선택하는데, 특히 워크 길이가 짧을 경우 시작 정점에 따라 학습 결과가 크게 달라지는 고변동성 문제가 있다. 이는 짧은 워크가 그래프 전체 구조를 충분히 탐색하지 못해, 정보량이 제한적이기 때문이다.
이를 해결하기 위해 저자들은 “밀집 정점” 개념을 도입하였다. 먼저 그래프 G=(V,E,W)의 전이 확률 행렬 P를 정의한다. 모든 가중치가 1이라고 가정하면, P_{vi,vj}=w_{vi,vj}/∑_{k}w_{vi,vk} 로 계산된다. 이후 두 정점 사이의 거리 d_{vi,vj}=∑_{l}p(l)·c·(1−c)^{l} 를 정의한다. 여기서 p(l)은 vi에서 vj까지 l 단계에 도달할 확률이며, c는 초기 상태로 복귀할 확률이다. 이 거리값은 랜덤 워크가 vi에서 vj까지 도달하는 난이도를 나타내며, 거리값이 작을수록 두 정점이 밀접하게 연결돼 있음을 의미한다.
다음 단계에서는 정점 vi가 주변 정점 vj에 미치는 영향을 f_{vj}^B(vi)=1−e^{−d_{vi,vj}^2/σ^2} 로 변환한다. 이 함수는 0과 1 사이의 값을 갖으며, 거리값이 작을수록 영향력이 크게 평가된다. 전체 정점 집합에 대해 vi의 밀집도 f_D^B(vi)=∑_{vj∈V}(1−e^{−d_{vi,vj}^2/σ^2}) 를 계산한다. 밀집도가 높은 정점은 주변 정점에 대한 접근성이 높고, 다양한 경로를 통해 정보를 획득할 가능성이 크다.
이론적으로, 밀집 정점에서 시작하는 랜덤 워크는 엔트로피 S=−∑_i f_D^B(vi)·log f_D^B(vi) 가 낮아, 정보 이득이 크다. 즉, 짧은 워크라도 충분히 다양한 이웃을 탐색할 수 있다. 저자들은 이를 정리한 정리 1을 제시하고, 정점의 차수가 클수록 전이 확률이 낮아지고, 결과적으로 거리와 엔트로피가 감소한다는 수식을 전개한다.
실험은 CORA‑ML 데이터셋의 303개 정점을 사용해 수행되었다. 각 정점당 100개의 랜덤 워크(길이 2~4)를 샘플링해 전이 행렬과 거리 행렬을 구축하고, 밀집도 값을 계산해 정점을 오름차순으로 정렬하였다. 이후 상위 N개의 정점을 시작점으로 선택해 NetGAN을 학습시켰으며, 동일한 그래프와 동일한 하이퍼파라미터(배치 크기 13,19,25; 워크 길이 2,3,4)로 기존 무작위 초기화와 비교하였다.
평가 지표는 학습 단계에서의 평균 정확도, 링크 예측 정밀도, ROC‑AUC, 에지 오버랩 등을 포함한다. 결과는 다음과 같다. (1) 짧은 워크(길이 2)에서 무작위 초기화는 평균 정확도 0.52에 불과했으나, 밀집 정점 초기화는 0.61로 9%p 상승했다. 배치 19, 워크 길이 3에서는 0.69→0.82, 배치 25, 워크 길이 4에서는 0.82→0.85까지 상승하였다. (2) ROC‑AUC 점수도 0.64→0.80, 0.83→0.87 등 크게 개선되었다. (3) 에지 오버랩 그래프는 학습 초기에 빠르게 수렴했으며, 변동성도 현저히 낮았다.
또한 워크 길이가 6 이상으로 늘어나면 무작위 초기화가 약간의 성능 회복을 보였지만, 학습 정확도와 변동성 측면에서는 여전히 밀집 정점 초기화가 우위에 있었다. 저자들은 현재 방법의 한계로, 모든 길이 l에 대한 정점 쌍 경로를 완전 탐색하지 않아 근사적인 밀집도만을 사용한 점을 지적한다. 향후 연구에서는 (1) 전체 경로 탐색을 통해 보다 정확한 밀집 정점 집합을 도출하고, (2) 일정 비율의 무작위 정점을 혼합해 다양성을 확보함으로써 긴 워크에서도 성능 저하를 방지할 수 있음을 제안한다.
결론적으로, 본 연구는 NetGAN과 같은 랜덤 워크 기반 그래프 생성 모델에서 초기 정점 선택이 전체 성능에 미치는 영향을 정량적으로 입증하였다. 확률적 거리와 엔트로피 개념을 활용해 밀집 정점을 선정함으로써, 짧은 워크에서도 충분한 정보를 제공하고, 학습 과정의 변동성을 크게 감소시켰다. 이러한 접근법은 NetGAN뿐 아니라, DeepWalk, node2vec 등 다른 랜덤 워크 기반 임베딩 및 생성 모델에도 적용 가능하며, 그래프 학습의 효율성과 안정성을 향상시키는 일반적인 전략으로 활용될 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기