GraphGhost 대형 언어 모델 내부 구조 추적
초록
GraphGhost는 대형 언어 모델(LLM)의 토큰 간 상호작용과 뉴런 활성화를 그래프 형태로 모델링한다. 샘플 뷰에서는 개별 예측에 기여한 토큰 의존성을 역추적해 내부 추론 흐름을 시각화하고, 데이터셋 뷰에서는 다수 샘플에서 반복되는 구조적 패턴을 집계한다. 그래프의 중심성, 클러스터링 등 구조적 지표가 영향력 있는 토큰·뉴런과 강하게 연관됨을 실험적으로 입증했으며, 핵심 노드를 교란하면 추론 결과가 크게 변한다는 사실을 보여준다.
상세 분석
본 논문은 기존 토큰‑레벨 설명이 제공하는 국소적 인사이트에 머무르는 한계를 극복하고자, LLM 내부의 정보 흐름을 전역적인 그래프 구조로 재구성한다는 근본적인 아이디어를 제시한다. 샘플 뷰에서는 최종 출력 토큰을 루트로 설정하고, 각 레이어별 회귀‑기반 회귀(로그잇 기여도)와 서킷 트레이싱을 통해 토큰‑레벨 기여 그래프를 구축한다. 이 과정에서 ‘W_local’이라는 엣지 가중치를 누적해 동일 토큰‑레벨 의존성이 여러 번 발견될 경우 가중치를 강화한다. 결과적으로 얻어지는 ‘G_sample’은 무가중치 구조 그래프이며, 토큰‑레이어 쌍을 정점, 의존 관계를 간선으로 표현한다.
데이터셋 뷰는 수천~수만 개의 샘플 그래프를 집합적으로 합쳐 ‘G_data’를 만든다. 여기서는 정점과 간선을 단순 합집합으로 결합하고, ‘W_data’를 통해 각 간선의 등장 빈도와 기여 강도를 정규화한다. 정규화된 가중치는 행‑확률 행렬 형태가 되어, 전체 데이터에 걸친 전역적 중요도를 정량화한다.
그래프 분석에서는 (1) 중심성(degree, betweenness)과 (2) 클러스터링 계수를 활용해 영향력 토큰·뉴런을 식별한다. 실험 결과, 높은 중심성을 가진 정점은 기존 토큰‑레벨 어트리뷰션 방법에서 높은 중요도 점수를 받는 경우와 일치했으며, 특히 수학·논리 추론 데이터셋에서 ‘=’, ‘+’, ‘So’와 같은 토큰이 여러 레이어에 걸쳐 반복적으로 등장한다는 점이 확인되었다.
교란 실험에서는 핵심 정점(중심성 상위 5%)을 마스크하거나 해당 뉴런의 활성값을 노이즈로 대체했을 때, 모델의 정확도와 논리 일관성이 크게 감소하였다. 이는 그래프 구조가 단순히 시각적 도구를 넘어, 실제 인과적 추론 메커니즘을 반영한다는 강력한 증거다.
또한, 토이 예시인 그래프 최단 경로 문제를 통해, LLM이 인간이 기대하는 “명시적 관계 탐색”이 아니라, 토큰‑레벨 연관성을 재귀적으로 합성하는 방식으로 경로를 구성한다는 흥미로운 발견을 제시한다. 이는 기존 CoT 프롬프트가 모델 내부의 실제 연산 흐름과 불일치할 수 있음을 시사한다.
전반적으로 GraphGhost는 (1) 샘플‑레벨에서 미세한 추론 단계와 (2) 데이터셋‑레벨에서 재사용 가능한 추론 패턴을 동시에 포착함으로써, LLM 내부 구조를 다층적·다스케일로 이해할 수 있는 새로운 프레임워크를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기