지시 벡터: 대형 언어 모델의 비선형 회로 선택 메커니즘
초록
본 논문은 지시‑튜닝된 LLM이 지시를 어떻게 내부에 표현하고 활용하는지를 메커니즘 수준에서 규명한다. 인과 매개 분석과 새로운 비선형 패칭 기법을 통해 ‘Instruction Vector(IV)’라 명명한 지시 전용 표현이 잔차 스트림의 마지막 지시 토큰에 국지화되고, 선형적으로 구분 가능하지만 여러 층에서의 결합 효과는 단순 합을 초과하는 ‘초과가법(superadditivity)’을 보임을 발견한다. IV는 이후 레이어에서 쿼리를 처리하기 위한 회로를 선택하는 역할을 하며, 이는 SFT와 DPO 단계에서 서로 다른 방식으로 형성된다.
상세 분석
이 연구는 먼저 OLMo‑2(1‑7B) 모델군을 대상으로 SFT와 DPO 각각 별도로 적용된 버전을 비교한다. 저자들은 “instruction token” T_inst 의 잔차 스트림 표현 X_l을 기준으로 인과 매개(causal mediation) 실험을 수행한다. 1‑layer 패칭 결과, 특정 층(주로 중간~후반)에서 로그잇 향상이 급격히 나타나며, 이는 지시 정보가 해당 층에 집중적으로 저장된다는 ‘Localization’ 현상을 보여준다. 흥미롭게도 두 층을 동시에 패칭했을 때 얻어지는 성능 향상이 개별 층의 합을 초과하는 ‘Superadditivity’가 관찰되었다. 이는 IV 자체는 선형 초평면으로 구분 가능하지만, 실제 모델 내부에서의 인과 작용은 비선형적으로 결합된다는 것을 의미한다. 기존 패칭 기반 해석 기법은 변수 간 선형·가법적 상호작용을 전제로 하기 때문에 이러한 현상을 포착하지 못한다.
이를 해결하기 위해 저자들은 “Locally Linear Map”(LLM) 기반의 비선형 인과 탐색 방법을 제안한다. LLM은 각 레이어의 입력‑출력 관계를 국소적으로 선형화한 뒤, 여러 레이어를 조합해 전체 변환을 재구성한다. 이 과정에서 특정 레이어 집합이 쿼리 토큰 T_q에 대한 출력에 미치는 기여도를 직접 측정할 수 있다. 실험 결과, IV가 존재하는 초기 레이어에서 형성된 작업‑특정 표현이 이후 레이어들의 선택적 경로(예: 특정 MLP 혹은 어텐션 헤드)를 활성화시켜 최종 답변을 생성한다는 ‘회로 선택(circuit selector)’ 역할을 수행한다는 것이 확인되었다.
SFT와 DPO 사이의 차이점도 흥미롭게 드러난다. SFT 모델은 기본적인 IV를 형성하지만, DPO 단계에서 추가된 보상 신호가 IV와 회로 선택 메커니즘 사이의 비선형 결합을 강화한다. 따라서 DPO는 단순히 성능을 높이는 것이 아니라, 지시 정보를 실제 연산 경로에 더 효과적으로 매핑하는 구조적 변화를 야기한다.
이러한 발견은 두 가지 중요한 함의를 가진다. 첫째, 지시 정보가 ‘조기(eager)’로 압축되어 저장되므로, 모델이 지시를 처리하는 과정에서 정보 병목이 존재할 가능성이 있다. 이는 적대적 교란에 대한 방어 메커니즘 설계에 활용될 수 있다. 둘째, 기존 해석 프레임워크가 가정하는 ‘선형 표현 가설’과 ‘가법적 인과 구조’가 실제 LLM의 복합적 상호작용을 충분히 설명하지 못한다는 점을 지적한다. 따라서 향후 메커니즘 해석 연구는 비선형·다중‑레이어 상호작용을 포괄하는 새로운 도구와 이론을 개발해야 할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기