대형 언어 모델을 위한 기능적 네트워크 지문
초록
본 논문은 훈련 없이 몇 개의 입력 샘플만으로도 의심 모델이 원본 모델에서 파생되었는지를 판단할 수 있는 “Functional Network Fingerprint”(FNF) 방법을 제안한다. 모델 내부의 뉴런 활성 패턴을 뇌의 기능적 연결망에 비유해 ICA 기반으로 추출하고, 두 모델 간의 시간적 활성 일관성을 스피어만 상관계수로 측정한다. 실험을 통해 규모·아키텍처 차이가 있더라도 동일 계통 모델은 높은 일관성을 보이며, 파인튜닝·프루닝·파라미터 순열 등 변형에도 강인함을 확인했다.
상세 분석
FNF는 기존 워터마크 기반 혹은 파라미터 유사도 측정 방식과 달리 모델의 “동적” 특성을 활용한다는 점에서 혁신적이다. 논문은 먼저 LLM 내부 신호를 fMRI와 유사한 시계열 데이터로 간주하고, 각 Transformer 블록 출력(토큰 × 은닉 차원)을 수집한다. 이후 CanICA(공간 ICA 변형)를 적용해 고차원 신호를 K개의 독립적인 공간 컴포넌트(즉, 기능적 네트워크)로 분해한다. 각 컴포넌트는 핵심 뉴런 집합을 나타내며, 이를 이진 마스크로 추출해 해당 뉴런들의 평균 활성값을 시간 코스(s)로 만든다. 두 모델 간에는 모든 (i, j) 네트워크 쌍에 대해 스피어만 순위 상관을 계산하고, N개의 입력 샘플에 대한 평균값(¯ρij)을 구한다. 이 K×K 매트릭스가 높은 값을 보이면 동일 계통으로 판단한다.
핵심 기술적 강점은 다음과 같다. 첫째, ICA를 이용해 “공통적인” 활성 패턴을 추출함으로써 파라미터 순열이나 프루닝처럼 구조를 변형해도 핵심 네트워크는 유지된다는 가정을 실험적으로 입증한다. 둘째, 스피어만 상관을 사용해 절대값이 아닌 순위 일관성을 평가함으로써 단순 스케일 차이나 선형 변환에 대한 민감도를 낮춘다. 셋째, 샘플 효율성이 뛰어나 10~20개의 위키텍스트 문장만으로도 신뢰할 만한 결과를 얻는다.
하지만 몇 가지 한계도 존재한다. ICA는 선형 혼합 모델을 전제로 하며, 실제 LLM 내부는 비선형 활성 흐름이 복잡하게 얽혀 있다. 따라서 ICA가 포착하지 못하는 비선형 상관관계가 존재할 가능성이 있다. 또한 K(네트워크 수)와 마스크 임계값 선택이 결과에 크게 영향을 미칠 수 있는데, 논문에서는 고정값을 사용했지만 데이터·모델에 따라 최적값이 달라질 수 있다. 마지막으로, 실험은 주로 동일 계열 내의 모델(예: Qwen‑3B vs Qwen‑7B)과 완전히 다른 아키텍처(예: LLaMA vs GPT‑Neo) 사이를 비교했으며, 중간 단계(예: 동일 아키텍처지만 데이터만 달라진 경우)에서의 구분력은 추가 검증이 필요하다.
전반적으로 FNF는 “동적 기능 네트워크”라는 새로운 차원의 모델 지문을 제시함으로써, 기존 비침습적 지문 기술이 놓쳤던 구조·스케일 변형에 대한 강인성을 확보한다. 향후 비선형 차원 축소 기법(예: VAE 기반)이나 다중‑샘플 정규화 기법을 결합하면 더욱 일반화된 지문 체계가 될 가능성이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기