가중치 기반 희소 오토인코더 특징 해석의 새로운 패러다임
초록
본 논문은 희소 오토인코더(SAE)의 특징을 활성화 패턴이 아닌 가중치 상호작용을 통해 해석하는 방법을 제안한다. 모델의 디코더와 임베딩/언베딩 행렬을 직접 곱해 기능을 측정함으로써, 입력‑출력 토큰 예측, 어텐션 회로 참여, 그리고 의미적·비의미적 특징의 깊이별 분포 차이를 밝혀낸다. Gemma‑2와 Llama‑3.1에 대한 실험에서 전체 특징의 약 ¼이 직접 토큰을 예측하고, 깊이에 따라 U‑shape와 역U‑shape 형태의 특성 분포가 나타남을 확인하였다.
상세 분석
이 연구는 기존의 “활성화 기반” 해석이 갖는 인과관계의 한계를 지적하고, SAE 특징을 가중치 기반(out‑of‑context) 으로 분석하는 새로운 프레임워크를 구축한다. 핵심 아이디어는 SAE 디코더 벡터 (W^{dec}i) 를 모델의 언베딩 행렬 (W_U) 와 곱해 로그잇 벡터 (l_i^D) 를 얻고, 이를 통해 해당 특징이 어떤 토큰을 직접 촉진하거나 억제하는지를 정량화하는 것이다. 또한, 인코더 벡터 (W^{enc}{·,i}) 를 임베딩 행렬 (W_E) 와 곱해 입력‑공간 로그잇 (l_i^E) 를 계산함으로써, 특징이 입력 토큰과 어떤 관계를 맺는지도 동시에 평가한다.
세 가지 메트릭—레벤슈타인 거리, 코사인 유사도, 상위 100 토큰 엔트로피—를 조합해 “의미적 특징”을 정의한다. 레벤슈타인 거리는 상위 토큰 간 형태적 유사성을, 코사인 유사도는 의미적 임베딩 유사성을, 엔트로피는 토큰 분포의 집중도를 측정한다. 각 메트릭을 50번째 백분위수 기준으로 임계값을 설정하고, 세 메트릭을 모두 통과한 특징을 ‘semantic’이라고 라벨링한다.
실험 결과는 두 모델군에서 일관되게 나타난다. Gemma‑2에서는 의미적 특징의 통과율이 초기와 최종 레이어에서 높고, 중간 레이어에서는 감소하는 U‑shape 패턴을 보인다. 이는 초기 레이어가 입력 어휘와 직접 연결되고, 최종 레이어가 출력 토큰 예측에 특화되는 반면, 중간 레이어는 보다 추상적인 조합 역할을 수행한다는 해석을 가능하게 한다. 반면 Llama‑3.1에서는 디코더‑언베딩 경로가 단조 증가 형태를 보이며, 초기 레이어에서는 거의 의미적 연관이 없고, 깊어질수록 출력 토큰과의 직접적인 연관성이 강해진다. 동시에 인코더‑임베딩 경로는 초기 레이어에서 높은 통과율을 보이다가 급격히 감소한다. 이는 두 모델이 임베딩과 언베딩을 풀어놓은 구조적 차이 때문에 깊이별 기능 특화가 다르게 나타난다는 중요한 통찰을 제공한다.
또한, 약 ¼의 특징이 직접 토큰을 예측한다는 발견은 SAE가 단순히 차원 축소를 넘어 예측 기능 자체를 내재화하고 있음을 시사한다. 어텐션 회로와의 상호작용 분석에서는 특정 특징이 키·밸류·쿼리 행렬에 강하게 연결돼, 어텐션 가중치 조정에 기여한다는 증거가 제시된다. 이러한 결과는 기존의 “활성화 기반” 설명이 놓친 인과적 메커니즘을 가중치 기반 접근법이 효과적으로 포착한다는 점을 입증한다.
마지막으로, 저자들은 코드와 학습된 SAE를 공개함으로써 재현 가능성을 확보하고, 향후 연구가 가중치 기반 해석을 확장해 다른 아키텍처(예: 트랜스포머 변형, 멀티모달 모델)에도 적용할 수 있는 기반을 마련한다.
댓글 및 학술 토론
Loading comments...
의견 남기기