그래프 노드 분류, TabPFN으로 GNN을 대체할 수 있을까

본 논문은 그래프 노드 분류 문제를 탭형 데이터로 변환한 뒤, 사전 학습된 TabPFN 모델을 직접 적용함으로써 GNN 없이도 높은 정확도를 달성할 수 있음을 보인다. 노드 속성, 구조적 지표, 위치 인코딩 및 이웃 스무딩 특징을 결합한 TabPFN‑GN이 동질성 그래프에서는 기존 GNN과 경쟁하고, 이질성 그래프에서는 일관되게 우수한 성능을 기록한다.

저자: Jeongwhan Choi, Woosung Kang, Minseo Kim

본 연구는 최근 큰 규모의 사전 학습 모델이 다양한 도메인에서 제로샷 일반화 능력을 보이는 현상을 그래프 학습에도 적용하고자 하는 시도이다. 기존 그래프 기반 파운데이션 모델은 대규모 언어 모델(LLM)에 의존해 텍스트형 노드 특성을 처리하거나 프롬프트 엔지니어링을 필요로 하는데, 이는 텍스트가 없는 수치형 특성을 가진 그래프에 적용하기 어렵고, LLM의 편향 문제도 동반한다. 이러한 한계를 극복하고자 저자들은 TabPFN이라는 탭형 데이터 전용 파운데이션 모델을 그래프 노드 분류에 활용한다. TabPFN은 수백만 개의 합성 탭형 데이터셋으로 사전 학습된 트랜스포머이며, 작은 실제 데이터에 대해 별도 파인튜닝 없이 인‑컨텍스트 학습으로 높은 정확도를 제공한다. 최근 TabPFN‑TS가 시계열 데이터를 탭형으로 변환해 성공을 거둔 점에 착안해, 그래프를 탭형으로 변환하는 ‘그래프 탭ularization’ 방법을 제안한다. 제안된 TabPFN‑GN 파이프라인은 네 가지 주요 피처 그룹을 추출한다. 첫째, 원본 노드 특성을 그대로 사용하되, 차원이 너무 높을 경우 SVD를 통해 차원을 축소한다. 둘째, 로컬 구조 지표(노드 차수, 클러스터링 계수, 삼각형 수)와 글로벌 중심성(베트위니스, 페이지랭크 등)을 계산해 구조적 특징을 만든다. 셋째, Laplacian Eigenvectors 기반 LapPE와 Random Walk Structural Encoding(RWSE) 중 하나를 선택해 위치 인코딩을 제공한다. 넷째, 선택적으로 L‑step 선형 그래프 컨볼루션을 적용해 이웃의 특성을 평균화하는 스무딩 피처를 만든다. 이렇게 구성된 피처 벡터는 z‑정규화 후 TabPFN에 그대로 입력된다. TabPFN은 사전 학습된 패턴을 활용해 훈련 노드와 레이블을 조건으로 테스트 노드의 클래스 확률을 직접 예측한다. 따라서 별도의 그래프 신경망 아키텍처 설계나 파라미터 학습이 필요 없으며, 모델 자체가 LLM에 의존하지 않는다. 실험은 12개의 공개 벤치마크(동질성: Cora, Citeseer, Pubmed, WikiCS, Amazon‑Computer, Amazon‑Photo; 이질성: Chameleon, Squirrel, Cornell, Texas, Actor, Wisconsin)를 대상으로 수행되었다. 동질성 그래프에서는 기존 GCN, GraphSAGE, GAT, GraphGPS 등 최신 GNN과 비교했을 때, TabPFN‑GN은 Pubmed, WikiCS, Amazon‑Computer 등에서 최고 성능을 기록했으며, 전체적으로 GNN과 비슷한 수준을 유지했다. 이질성 그래프에서는 H2GCN, GPRGNN 같은 특수 모델보다 일관되게 높은 정확도를 보였으며, 특히 Cornell 데이터에서는 약간 뒤처졌지만 다른 다섯 데이터에서는 모두 최고를 차지했다. 또한, TabPFN‑GN은 기존 TabPFN을 그대로 적용한 경우보다 모든 데이터에서 크게 향상된 결과를 보였으며, GraphAny와 같은 사전 학습된 그래프 모델보다도 우수했다. 이러한 결과는 그래프 구조 정보를 적절히 탭형 피처로 변환하면, 사전 학습된 탭형 파운데이션 모델이 그래프 학습에서도 강력한 제로샷 성능을 발휘할 수 있음을 시사한다. 한계점으로는 TabPFN이 지원하는 클래스 수가 16개 이하로 제한돼 다중 클래스 그래프(예: ogbn‑arxiv)에는 적용이 어려우며, 사전 학습 단계에 그래프 연결 패턴이 포함되지 않아 강한 동질성 그래프에서는 잠재적 성능 한계가 존재한다. 향후 연구에서는 그래프‑특화 합성 데이터로 사전 학습을 확장하거나, LLM 기반 그래프 파운데이션 모델과의 직접적인 비교를 통해 장단점을 명확히 할 필요가 있다. 또한, 스무딩 단계의 깊이와 피처 선택을 자동화하는 메타러닝 기법을 도입하면 이질성 정도에 따라 최적화된 탭ularization을 자동으로 수행할 수 있을 것으로 기대된다. 결론적으로, 이 논문은 “그래프를 탭형 데이터로 변환하고, 사전 학습된 TabPFN을 그대로 적용하면 GNN 없이도 경쟁력 있는 노드 분류가 가능하다”는 새로운 패러다임을 제시한다. 특히 이질성 그래프에서의 뛰어난 성능은 기존 GNN이 겪는 한계를 보완할 수 있는 실용적인 대안을 제공한다는 점에서 의미가 크다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기