트랜스포머 심볼릭 회귀의 내부 메커니즘을 밝히다
초록
본 논문은 트랜스포머 기반 심볼릭 회귀 모델의 연산 과정을 기계적 해석 기법으로 규명한다. 저자는 PATCHES라는 진화적 회로 탐색 알고리즘을 제안해, 평균 패칭(mean patching)과 성능 기반 평가를 결합함으로써 28개의 최소·정확한 회로를 발견한다. 회로의 타당성은 신뢰성, 완전성, 최소성이라는 세 가지 정량적 기준으로 검증한다. 실험 결과, 직접 로그 기여도 측정과 탐색기(probing) 방식은 인과 관계보다는 상관 관계를 포착하는 데 그친다는 점을 확인한다.
상세 분석
이 연구는 메카니즘 해석(Mechanistic Interpretability, MI)의 핵심 도구인 회로(circuit) 발견을 심볼릭 회귀( Symbolic Regression, SR) 분야에 최초로 적용한 점에서 의의가 크다. 기존 MI 연구는 주로 언어·시각 모델에 집중했으며, 회로를 찾기 위한 전통적 방법은 순차적 패칭(iterative patching)이나 직접 로그 기여도(Direct Logit Attribution) 등에 의존했다. 그러나 SR 모델은 연산 토큰(예: sin, +, ×)이 직접 수식 생성에 연결되는 특수성을 갖기 때문에, 보다 정밀한 인과 분석이 요구된다.
논문은 먼저 PATCHES(Probabilistic Algorithm for Tuning Circuits through Heuristic Evolution and Search)라는 알고리즘을 설계한다. PATCHES는 모델의 모든 컴포넌트(어텐션 헤드·MLP)를 이진 마스크 형태의 확률 변수로 표현하고, Covariance Matrix Adaptation Evolution Strategy(CMA‑ES)를 이용해 전역 최적화를 수행한다. 목표는(1) 회로 크기 |C|를 최소화하고(2) 성능 손실을 정해진 임계값 λ·max(0, T_i‑S_i(C)) 이하로 유지하는 것이다. 여기서 T_i는 성능 기준(예: top‑k 정확도), S_i(C)는 후보 회로 C의 실제 성능을 의미한다.
패칭 전략은 세 가지를 비교한다. 평균 패칭(mean patching)은 데이터 전체 평균 활성값으로 대체해 입력 독립성을 확보하지만, 데이터 분포에 민감하다. 리샘플 패칭(resample patching)은 각 입력에 대해 토큰을 교체한 ‘오염’ 샘플을 생성하고, 그 평균 활성값으로 교체한다. 마지막으로 STR(Resample Symmetric Token Replacement)은 가장 의미적으로 유사한 토큰 하나만 사용해 단일 샘플 패칭을 수행한다. 실험에서는 평균 패칭이 가장 안정적인 인과 효과를 보여, 이후 주요 회로 탐색에 채택되었다.
회로의 타당성 평가는 세 가지 정량적 기준으로 이루어진다. 신뢰성(Faithfulness)은 회로만을 활성화했을 때(full model M → M↓C)와 전체 모델이 동일한 토큰을 예측하는 정도를 측정한다. 완전성(Completeness)은 회로를 제외한 나머지(complement)만을 남겼을 때 성능이 크게 저하되는지를 확인한다. 최소성(Minimality)은 회로 내 각 구성요소를 하나씩 제거했을 때 성능 저하가 임계값 δ_f 이상인지 검증한다. 이러한 기준을 함수‑레벨(top‑k 정확도)과 모델‑레벨(logit 차이) 두 축에서 동시에 적용해, 회로가 실제 인과 메커니즘을 포착했는지 종합적으로 판단한다.
결과적으로 PATCHES는 28개의 회로를 발견했으며, 각 회로는 특정 연산자(예: sin, exp, +, ×)를 생성하는 데 핵심적인 어텐션 헤드와 MLP 블록을 정확히 식별한다. 비교 실험에서 직접 로그 기여도와 탐색기 기반 프로빙은 높은 상관성을 보였지만, 회로를 제거하거나 교체했을 때 실제 성능 변화가 미미해 인과적 설명력은 부족했다. 이는 기존 해석 기법이 ‘사용된 정보’가 아니라 ‘저장된 정보’를 주로 반영한다는 점을 재확인한다.
이 논문은 SR 모델을 메카니즘 해석의 새로운 적용 분야로 제시함과 동시에, 회로 탐색을 위한 진화적 최적화와 엄격한 인과 검증 프레임워크를 제공한다. 향후 복잡한 과학 모델이나 자동 수식 생성 시스템에 대한 투명성 확보에 중요한 기반이 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기