LLM 신경 토폴로지를 활용한 언어 성능 예측과 구조적 해석

LLM 신경 토폴로지를 활용한 언어 성능 예측과 구조적 해석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 뉴런 간 기능적 연결성을 그래프 형태로 추출하고, 이를 선형·MLP 프로브에 입력해 퍼플렉시티, 시공간 의미 회귀 등 다양한 언어 성능을 예측한다. 실험 결과, 토폴로지 기반 프로브는 활성화 기반 프로브보다 최대 130 % 이상의 R² 향상을 보이며, 1 % 수준의 연결만 보존해도 예측력이 유지된다. 또한 허브 뉴런과 디폴트 네트워크를 식별하고, 토폴로지를 조작한 인과 실험을 통해 모델이 실제로 이러한 구조 정보를 활용함을 입증한다. 마지막으로 그래프 프로빙을 이용한 모델 프루닝 및 환각 검출 가능성을 시연한다.

상세 분석

이 연구는 기존의 “활성화 프로빙”이 뉴런의 순간값에만 초점을 맞추는 한계를 넘어, 토큰 시퀀스를 처리하면서 발생하는 뉴런 활성화 시계열 간의 피어슨 상관관계를 이용해 완전 연결 그래프 A를 만든다. A의 각 원소 aᵢⱼ은 뉴런 i와 j 사이의 기능적 동시활성 정도를 나타내며, 이는 뇌 과학에서 사용되는 기능적 연결망과 직접적인 유사성을 가진다. 논문은 두 가지 간단한 프로브 구조—선형 변환과 1‑hidden‑layer MLP—를 제안하고, 그래프를 평탄화한 벡터를 입력으로 하여 언어 모델의 퍼플렉시티(PPL), 시간·공간 의미 회귀, 환각 점수 등을 예측한다.

실험은 GPT‑2, Pythia, Qwen2.5 등 3가지 모델군을 6가지 규모(수백만수십억 파라미터)에서 수행했으며, OpenWebText 기반 10 k개의 토큰 시퀀스를 사용해 훈련·테스트 데이터를 구축했다. 결과는 다음과 같다. (1) 토폴로지 기반 프로브는 모든 모델·스케일에서 R²가 0.850.96에 달해, 활성화 기반 프로브(0.350.45)보다 2배 이상 우수했다. (2) MSE와 MAE도 46배 감소했으며, Pearson·Spearman 상관계수도 0.92 이상으로 높은 일관성을 보였다. (3) 그래프를 99 % 희소화해 1 % 연결만 남겨도 성능 저하가 거의 없었는데, 이는 핵심 연결이 소수의 허브와 디폴트 서브네트워크에 집중되어 있음을 시사한다.

허브 뉴런은 그래프 중심성(베트위니스, 클러스터링) 측정에서 상위 0.5 %에 해당하며, 이들을 무작위로 마스킹하면 퍼플렉시티 예측 정확도가 급격히 떨어진다. 반대로 디폴트 네트워크(특정 레이어·헤드에 집중된 서브그래프)를 유지한 채 나머지를 제거하면 성능 손실이 최소화된다. 이러한 인과 실험은 모델이 토폴로지 정보를 실제 토큰 생성 과정에서 활용한다는 강력한 증거다.

마지막으로, 그래프 기반 프루닝은 허브와 디폴트 서브네트워크만 남겨 모델 파라미터를 70 % 이상 감소시키면서도 PPL 차이가 2 % 미만으로 유지되었다. 또한, 환각 검출 실험에서는 토폴로지 변화(예: 허브 연결 약화)가 환각 점수와 높은 양의 상관관계를 보여, 토폴로지 이상 탐지를 통한 안전성 향상이 가능함을 입증했다.

전반적으로 이 논문은 “신경 토폴로지”라는 새로운 차원의 프로빙 프레임워크를 제시함으로써, LLM 내부 구조와 언어 성능 사이의 직접적, 인과적 연결고리를 밝히고, 모델 압축·안전성 향상에 실용적 응용 가능성을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기