언어 모델 회로는 뉴런 기반에서도 희소하다

언어 모델 회로는 뉴런 기반에서도 희소하다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델의 MLP 뉴런 활성화가 기존의 희소 자동인코더(SAE)와 동등한 수준의 희소성을 제공한다는 것을 실증한다. MLP 활성값을 기반으로 한 회로 추적 파이프라인을 구축해, 주어‑동사 일치와 다중 홉 추론 과제에서 수백 개 수준의 뉴런만으로도 모델 행동을 정확히 제어하고, 특정 추론 단계가 개별 뉴런 집합에 매핑됨을 보여준다.

상세 분석

이 연구는 “뉴런 자체가 해석 불가능하다”는 기존 믿음에 정면으로 도전한다. 저자들은 먼저 Transformer의 MLP 블록에서 출력값이 아닌 활성값(pre‑down‑projection hidden activations)을 사용함으로써, 각 뉴런이 보다 직접적인 계산 단위가 됨을 확인한다. 활성값은 비선형 변환 전 단계이므로, 각 차원이 모델 내부에서 보다 독립적인 의미를 갖게 되고, 이는 희소한 회로를 찾는 데 유리하게 작용한다. 실험에서는 Llama 3.1‑8B를 대상으로 네 가지 주어‑동사 일치(SVA) 서브태스크와 다중 홉 “도시 → 주 → 수도” 추론 과제를 사용하였다. 회로 추적은 두 단계로 이루어진다. 첫째, 입력‑출력 쌍을 통해 Integrated Gradients(IG) 혹은 최신 RelP(Relevance Propagation) 기법으로 각 뉴런·SAE 피처의 기여도를 계산한다. 둘째, 기여도가 높은 k개의 뉴런을 선택해 mean‑ablation(평균값으로 대체) 실험을 수행, 회로의 faithfulness(원본 모델과의 일치도)와 completeness(회로 자체를 제거했을 때 성능 저하 정도)를 측정한다. 결과는 두드러진데, MLP 활성값 기반 회로는 동일한 성능을 달성하면서도 필요한 뉴런 수가 MLP 출력 기반 회로보다 100배 이상 적다. 또한, RelP를 적용하면 SAEs가 제공하던 희소성 수준에 거의 도달한다. 이는 RelP가 IG보다 더 정확하고 효율적인 기여도 추정법임을 시사한다.

핵심 통찰은 다음과 같다. 1) 활성값 자체가 자연스러운 희소 기반이며, 이는 별도의 학습 없이도 기존 모델 구조에서 바로 활용 가능하다. 2) 비선형성을 보존한 채 선형 근사(Linearised) 규칙을 적용해 LRP‑style 가중치 분배를 수행하면, 각 뉴런 간 인과 관계를 정량화할 수 있다. 3) 회로 해석에 있어 **학습된 사전 사전(SAE)보다 원본 뉴런이 더 충실(faithful)**하다는 점을 실증한다. 학습된 사전은 재구성 오류와 다중 의미(polysemantic) 문제를 내포하지만, 원본 뉴런은 이러한 부작용이 없으며, 따라서 모델 행동을 직접 조작하거나 스티어링할 때 더 안전하고 해석 가능하다. 마지막으로, 저자들은 동일한 파이프라인을 사용해 “도시 → 주 → 수도” 과제에서 ‘도시를 주(state)로 매핑’, **‘주를 수도로 매핑’**이라는 두 개의 추론 단계가 각각 별도 뉴런 집합에 대응함을 발견했다. 해당 뉴런들을 목표값으로 조작하면 모델의 최종 출력이 의도대로 바뀌는 것을 확인, 회로 기반 스티어링 가능성을 입증한다.

이러한 결과는 대규모 언어 모델을 해석하고 제어하는 데 있어 추가 학습 비용 없이도 충분히 희소하고 의미 있는 회로를 발견할 수 있다는 중요한 메시지를 제공한다. 앞으로는 뉴런 기반 회로를 활용한 자동화된 디버깅, 안전성 검증, 그리고 목표 지향적 스티어링 연구가 활발히 진행될 전망이다.


댓글 및 학술 토론

Loading comments...

의견 남기기