SAE 특징 해석을 위한 에이전트 기반 SAGE 프레임워크

SAE 특징 해석을 위한 에이전트 기반 SAGE 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델의 내부 표현을 희소 자동인코더(SAE)로 분해한 뒤, 각 희소 특징을 의미 있게 설명하기 위한 새로운 에이전트 기반 시스템인 SAGE를 제안한다. SAGE는 초기 가설을 다수 생성하고, 설계된 테스트 텍스트로 실험을 수행하며, 활성화 피드백을 통해 가설을 수용·거부·정제·반박하는 다중 턴 루프를 수행한다. 실험 결과, 기존 Neuronpedia 대비 생성 정확도와 예측 정확도에서 현저히 높은 성능을 보이며, 특히 깊은 층에서 다중 의미(폴리세마틱) 특징을 효과적으로 포착한다.

상세 분석

SAGE는 기존의 “한 번에 설명 생성” 방식과 달리 과학적 가설‑검증 사이클을 모방한 에이전트 체계를 도입한다는 점에서 혁신적이다. 먼저 목표 SAE 특징 f_j에 대해 상위 k(=10) 활성 텍스트를 추출하고, Explainer LLM이 이를 기반으로 n(=4)개의 초기 가설 H_i를 만든다. 여기서 가설은 단순한 의미 라벨이 아니라 “특정 개념이 텍스트에 존재하면 f_j가 활성화된다”는 형태의 테스트 가능한 명제이다. Designer LLM은 각 가설을 검증할 수 있는 텍스트 T_i를 생성하고, 이를 목표 LLM에 입력해 SAE 인코더를 통과시킨 뒤 활성화 값 a_i를 측정한다. Analyzer LLM은 a_i와 사전 정의된 임계값을 비교해 가설의 상태를 Accept, Reject, Refine, Refute 중 하나로 전이한다. 특히 Refine 단계에서는 부분적으로 일치하는 증거를 활용해 가설을 구체화하거나 조건을 추가하고, Refute 단계에서는 예상과 반대되는 패턴을 탐색해 새로운 테스트 텍스트를 만든다. 이러한 피드백 루프는 상태 전이 함수(식 3)와 증거 누적 공식(식 4)에 의해 형식화되어, 반복 횟수 제한 또는 모든 가설이 터미널 상태에 도달할 때까지 진행된다.

핵심 기술적 기여는 다음과 같다. 첫째, 다중 가설을 동시에 유지함으로써 폴리세마틱 특징을 자연스럽게 드러낸다. 둘째, 활성화 기반 실험 설계가 가설의 인과관계를 직접 검증하므로 설명의 일관성과 재현성이 크게 향상된다. 셋째, 모든 에이전트가 동일한 고성능 LLM(GPT‑5)으로 구현돼, 모델 간 비교가 공정하게 이루어진다.

실험에서는 Qwen‑3‑4B, Gemma‑2‑2B, GPT‑OSS‑20B 등 세 가지 오픈소스 LLM에 대해 각각 3, 7, 11, 23 레이어의 특징 10개씩을 무작위 샘플링했다. 평가 지표는 (1) Generative Accuracy: 가설을 기반으로 생성한 텍스트가 목표 특징을 얼마나 강하게 활성화시키는가, (2) Predictive Accuracy: 가설이 보유한 설명이 새로운 데이터에서 특징 활성화를 얼마나 정확히 예측하는가이다. 결과는 Table 2에 요약되는데, 전반적으로 SAGE는 생성 정확도에서 0.260.97 사이, Neuronpedia는 0.120.75 사이로, 특히 깊은 23 레이어에서 458% 이상의 개선을 보였다. 예측 정확도에서도 0.520.83 대비 0.650.83 수준으로 일관된 우위를 확보했다.

이러한 성과는 SAGE가 단순히 “어떤 의미가 있을까?”를 추측하는 것이 아니라, 실제 모델 내부의 활성화 메커니즘을 실험적으로 검증한다는 점에서 차별화된다. 또한, 다중 가설 관리와 피드백‑드리븐 정제 과정은 기존 자동화 파이프라인이 놓치기 쉬운 미세한 조건부 패턴을 포착하게 해, 해석 가능성 연구에 새로운 방법론적 표준을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기