대규모 그래프를 위한 선형‑시간 트랜스포머, 스파이킹 노드 토크나이제이션
초록
GT‑SNT는 스파이킹 신경망을 이용해 그래프 노드를 이산적인 스파이크 카운트 토큰으로 변환하고, 재구성된 코드북을 기반으로 노드‑투‑토큰 어텐션을 수행함으로써 O(N) 복잡도로 전역 컨텍스트를 집계한다. 실험에서 기존 그래프 트랜스포머와 비교해 예측 성능은 유지하면서 최대 130배 빠른 추론 속도를 달성한다.
상세 분석
GT‑SNT는 세 가지 핵심 아이디어로 구성된다. 첫째, 스파이킹 노드 토크나이제이션(SNT)은 다단계 특징 전파와 스파이킹 뉴런을 결합해 각 노드의 연속적인 임베딩을 이산적인 스파이크 카운트 벡터로 변환한다. 이 과정에서 입력 특성은 랜덤 피처 매트릭스 R을 통해 초기화되고, T 단계의 전파를 거쳐 Mₜ = Norm(P Mₜ₋₁) 로 업데이트된다. 스파이킹 뉴런은 IF, LIF, PLIF 등 다양한 형태를 지원하며, 각 시간 단계에서 발생한 스파이크 Sₜ를 누적해 ˆS = Σₜ Sₜ 를 얻는다. ˆS는 정수 행렬이며, 중복 행을 제거해 코드북 C와 원‑핫 인덱스 행렬 U를 동적으로 재구성한다. 이때 코드북 크기 B는 전체 가능한 조합 |˜C| = (T+1)ᴰ에 비해 현저히 작아 코드북 붕괴 문제를 회피한다.
둘째, 코드북 가이드 셀프‑어텐션(CGSA)은 재구성된 코드북을 키(Key) 행렬로 활용한다. 구체적으로 G = Norm(Linear(C)) 로 코드북 임베딩을 선형 변환하고, ˆK = U G 로 토큰‑레벨 키를 만든다. 쿼리 Q와 밸류 V는 보조 MPNN(단일 레이어 GCN)에서 추출한 노드 임베딩 H에 각각 W_q, W_v 를 적용해 얻는다. 어텐션은 ˆZ = softmax(Q ˆKᵀ) V 로 계산되며, 수식 변형을 통해 O(N·B·d) 복잡도로 구현된다. B ≪ N 이므로 전체 연산은 선형 시간에 머문다. 또한, 토큰 기반 어텐션은 노드‑레벨 전역 정보를 효율적으로 집계하면서도 토큰이 지역 구조를 반영하도록 설계돼 그래프 토폴로지를 자연스럽게 인코딩한다.
셋째, 전체 파이프라인은 SNT → 보조 MPNN → CGSA → 잔차 연결 → 분류 헤드 순으로 진행된다. GT‑SNT는 기존 트랜스포머에서 흔히 사용되는 복잡한 프로젝션 블록(MLP, 레이어 정규화 등)을 제거하고, 어텐션과 잔차만 남겨 과적합 위험을 낮춘다. 실험에서는 Cora, Citeseer, Pubmed 등 소규모 인용 네트워크부터 ogbn‑products, ogbn‑papers100M 같은 대규모 그래프까지 9개 데이터셋을 대상으로, Graphormer, SAN, Performer 등 최신 GT와 비교했다. 정확도 면에서는 대부분의 데이터셋에서 동등하거나 약간 우수했으며, 추론 시간에서는 평균 30배, 최악의 경우 130배까지 가속을 기록했다.
기술적 강점은 (1) 스파이킹 뉴런을 토크나이저로 활용해 이산적이면서도 정보 손실을 최소화한 토큰을 생성한다는 점, (2) 동적 코드북 재구성을 통해 메모리와 연산을 크게 절감한다는 점, (3) 토큰‑투‑노드 어텐션 구조가 전역 컨텍스트와 지역 토폴로지를 동시에 포착한다는 점이다. 반면, 현재 구현은 랜덤 피처 R과 전파 연산 P에 크게 의존해 하이퍼파라미터 T, D, B 선택이 성능에 민감하며, 스파이킹 뉴런의 비선형성으로 인한 학습 안정성 문제가 보고되지 않았지만 추가적인 정규화나 스파이크 억제 기법이 필요할 가능성이 있다. 또한, 코드북 트렁케이션 전략이 학습 초기에 토큰 다양성을 제한할 위험도 존재한다. 전반적으로 GT‑SNT는 스파이킹 신경망과 그래프 트랜스포머를 결합한 새로운 패러다임을 제시하며, 대규모 그래프 처리에 실용적인 효율성을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기