LLM 신경 토폴로지를 활용한 언어 성능 예측과 구조적 해석

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 뉴런 간 기능적 연결성을 그래프 형태로 추출하고, 이를 선형·MLP 프로브에 입력해 퍼플렉시티, 시공간 의미 회귀 등 다양한 언어 성능을 예측한다. 실험 결과, 토폴로지 기반 프로브는 활성화 기반 프로브보다 최대 130 % 이상의 R² 향상을 보이며, 1 % 수준의 연결만 보존해도 예측력이 유지된다. 또한 허브 뉴런과 디폴트 네트워크를 식별하고, 토폴로지를 조작한 인과 실험을 통해 모델이 실제로 이러한 구조 정보를 활용함을 입증한다. 마지막으로 그래프 프로빙을 이용한 모델 프루닝 및 환각 검출 가능성을 시연한다.

상세 분석

이 연구는 기존의 “활성화 프로빙”이 뉴런의 순간값에만 초점을 맞추는 한계를 넘어, 토큰 시퀀스를 처리하면서 발생하는 뉴런 활성화 시계열 간의 피어슨 상관관계를 이용해 완전 연결 그래프 A를 만든다. A의 각 원소 aᵢⱼ은 뉴런 i와 j 사이의 기능적 동시활성 정도를 나타내며, 이는 뇌 과학에서 사용되는 기능적 연결망과 직접적인 유사성을 가진다. 논문은 두 가지 간단한 프로브 구조—선형 변환과 1‑hidden‑layer MLP—를 제안하고, 그래프를 평탄화한 벡터를 입력으로 하여 언어 모델의 퍼플렉시티(PPL), 시간·공간 의미 회귀, 환각 점수 등을 예측한다.

실험은 GPT‑2, Pythia, Qwen2.5 등 3가지 모델군을 6가지 규모(수백만수십억 파라미터)에서 수행했으며, OpenWebText 기반 10 k개의 토큰 시퀀스를 사용해 훈련·테스트 데이터를 구축했다. 결과는 다음과 같다. (1) 토폴로지 기반 프로브는 모든 모델·스케일에서 R²가 0.850.96에 달해, 활성화 기반 프로브(0.35~~0.45)보다 2배 이상 우수했다. (2) MSE와 MAE도 4~~6배 감소했으며, Pearson·Spearman 상관계수도 0.92 이상으로 높은 일관성을 보였다. (3) 그래프를 99 % 희소화해 1 % 연결만 남겨도 성능 저하가 거의 없었는데, 이는 핵심 연결이 소수의 허브와 디폴트 서브네트워크에 집중되어 있음을 시사한다.

허브 뉴런은 그래프 중심성(베트위니스, 클러스터링) 측정에서 상위 0.5 %에 해당하며, 이들을 무작위로 마스킹하면 퍼플렉시티 예측 정확도가 급격히 떨어진다. 반대로 디폴트 네트워크(특정 레이어·헤드에 집중된 서브그래프)를 유지한 채 나머지를 제거하면 성능 손실이 최소화된다. 이러한 인과 실험은 모델이 토폴로지 정보를 실제 토큰 생성 과정에서 활용한다는 강력한 증거다.

마지막으로, 그래프 기반 프루닝은 허브와 디폴트 서브네트워크만 남겨 모델 파라미터를 70 % 이상 감소시키면서도 PPL 차이가 2 % 미만으로 유지되었다. 또한, 환각 검출 실험에서는 토폴로지 변화(예: 허브 연결 약화)가 환각 점수와 높은 양의 상관관계를 보여, 토폴로지 이상 탐지를 통한 안전성 향상이 가능함을 입증했다.

전반적으로 이 논문은 “신경 토폴로지”라는 새로운 차원의 프로빙 프레임워크를 제시함으로써, LLM 내부 구조와 언어 성능 사이의 직접적, 인과적 연결고리를 밝히고, 모델 압축·안전성 향상에 실용적 응용 가능성을 제시한다.

LLM 신경 토폴로지를 활용한 언어 성능 예측과 구조적 해석

초록

상세 분석

댓글 및 학술 토론

의견 남기기