트랜스포머를 RASP로 디컴파일해 해석 가능한 알고리즘 찾기
초록
본 논문은 GPT‑2 스타일 소형 트랜스포머를 RASP 계열 언어인 D‑RASP로 정확히 재구성한 뒤, 인과적 개입을 통해 불필요한 연산을 제거함으로써 최소한의 해석 가능한 서브 프로그램을 자동으로 추출한다. 실험 결과, 길이 일반화를 성공한 모델들은 히스토그램 기반 다수결, 인덕션 헤드 복사, 괄호 카운팅 등 간단한 RASP 프로그램을 재현했으며, 일반화에 실패한 모델은 복잡한 비프로그램적 메커니즘을 보였다.
상세 분석
이 연구는 두 단계의 파이프라인을 제시한다. 첫 번째 단계는 “Faithful Re‑parameterization”으로, 트랜스포머의 각 레이어를 D‑RASP의 선택자(select), 집계(aggregate), 원소별 연산(element‑wise)으로 정확히 매핑한다. 여기서 핵심 가정은 Linear Layer‑Norm Assumption(LLN‑A)이며, 이는 레이어 정규화를 선형 변환으로 근사함으로써 잔차 스트림을 순수 선형 결합으로 표현할 수 있게 한다. 논문은 정리 3.2를 통해 GPT‑2 구조가 LLN‑A를 만족하면 D‑RASP 프로그램이 존재함을 증명한다.
두 번째 단계는 “Causal Pruning & Simplification”이다. 선택자와 집계에 사용된 텐서를 0, 키‑전용, 혹은 상수로 교체하고, 원소별 연산의 입력 변수를 제거하면서 모델 출력과의 매치 정확도(match accuracy)를 90 % 이상 유지한다. 이는 기존 회로 발견(circuit discovery) 기법과 유사하지만, 프로그램 수준에서 변수와 연산을 직접 다루어 보다 직관적인 알고리즘 형태를 얻는다.
실험에서는 1‑layer·4‑head, 4‑layer·4‑head 등 소형 GPT‑2 모델을 알고리즘적 과제(예: 가장 빈번한 문자 찾기, 복사, Dyck 언어 괄호 카운팅)와 형식 언어 벤치마크에 학습시켰다. 길이 일반화를 보인 모델은 D‑RASP로 변환 후 프루닝을 거치면 “aggregate without selector + identity projection” 형태의 간단한 프로그램이 남으며, 이는 기존 이론에서 제시된 RASP 기반 설명과 일치한다. 반면 일반화에 실패한 모델은 프루닝 후에도 매치 정확도가 급격히 떨어지거나, 남은 프로그램이 복잡한 매트릭스 연산으로 구성돼 해석이 어려웠다.
이 논문의 의의는 (1) 트랜스포머와 RASP 사이의 정확한 양방향 매핑을 실증적으로 제공하고, (2) 인과적 개입을 통한 자동 프로그램 축소 기법을 제시함으로써 메커니즘 해석을 ‘프로그램 수준’으로 끌어올렸다는 점이다. 또한 D‑RASP와 기존 C‑RASP, FO(M) 논문 사이의 형식적 관계를 정리해 이론적 통합을 시도한다. 한계로는 LLN‑A가 실제 대규모 모델에 얼마나 적용 가능한지, 프루닝 과정이 지수적으로 큰 초기 프로그램을 완전 탐색하지 않고도 충분히 효율적인지에 대한 추가 검증이 필요하다. 향후 연구는 비선형 레이어 정규화, 다중‑헤드 복합 선택자, 그리고 실제 언어 모델에 대한 스케일업을 통해 이 방법을 확장할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기