효율적인 표현이 곧 제어 가능한 표현이다
초록
이 논문은 사전 학습된 LLM의 잔차 스트림에 16개의 고정 차원을 ‘플래그’로 지정하고, 보조 손실을 통해 해당 차원에 개념별 이진 라벨을 학습시킨다. 훈련 후 모델은 이 플래그를 실제 내부 특징으로 활용하며, 차원을 조작함으로써 생성 결과를 직접 제어할 수 있음을 보인다. 핵심 메커니즘은 ‘효율성 압력’으로, 모델이 중복된 표현을 제거하고 고정된 위치에 제공되는 신호에 의존하도록 만드는 것이다.
상세 분석
본 연구는 기존 메카니즘 해석이 “특징 발견 → 개입”이라는 두 단계 파이프라인에 의존한다는 점을 비판한다. 저자들은 이 과정을 완전히 우회하여, 사전 학습된 LLM의 잔차 스트림 중 16개의 차원을 미리 지정하고, 이 차원에 특정 개념(예: 개, 고양이, 동물, 음식, 프로그래밍)의 존재 여부를 이진값으로 표시하도록 보조 손실(position loss)을 도입한다. 훈련은 두 단계로 이루어진다. 첫 단계에서는 각 레이어에 정답 플래그를 직접 주입해 모델이 플래그를 활용하도록 학습시키고, 두 번째 단계에서는 플래그를 모델 자체가 예측하도록 강제한다. λ_t라는 가중치를 점진적으로 증가시켜, 초기에는 플래그 사용을 배우고 이후에는 플래그를 스스로 생성하도록 압력을 전환한다.
핵심 실험 결과는 세 가지로 요약된다. 첫째, 훈련 후 지정된 차원은 입력 텍스트에 따라 일관되게 활성화되며, 특히 5번째 레이어 이후부터는 거의 완벽한 신호를 제공한다. 둘째, 테스트 단계에서 해당 차원을 강제로 조작(켜거나 끄는)하면 모델의 출력이 즉각적으로 변한다. 예를 들어, “재미있는 이야기를 들려줘”라는 프롬프트에 개와 동물 플래그를 켜면 개 이야기가, 프로그래밍 플래그를 추가하면 코딩 이야기가 생성된다. 이는 모델이 플래그를 단순히 기록하는 것이 아니라 실제 추론 흐름에 활용하고 있음을 의미한다. 셋째, 플래그에 의존하게 된 모델은 기존의 중복된 표현을 감소시킨다. 이를 검증하기 위해 전체 차원을 사용한 선형 프로브와, 플래그 차원을 제외한 3056 차원만을 사용한 프로브를 비교했을 때, 후자의 정확도가 현저히 낮아지는 것이 관찰되었다. 이는 모델이 효율성 압력에 의해 플래그 차원에 특징 정보를 집중시키고, 다른 차원에서는 해당 정보를 거의 제거했음을 보여준다.
또한, 플래그 차원을 늘릴 경우 퍼플렉시티가 서서히 상승한다는 실험도 수행되었다. 16차원에서는 퍼플렉시티 상승이 0.12에 불과했지만, 64차원, 128차원으로 확대될수록 각각 1.00, 1.18 정도 증가한다. 이는 모델이 일정 수준의 차원을 ‘점령’하면 성능 저하가 발생한다는 효율성-제어 트레이드오프를 시사한다.
이러한 결과는 “효율성 압력”이라는 새로운 관점을 제시한다. 모델은 제한된 차원 내에서 정보를 압축하려는 경향이 있으며, 고정된 위치에 신뢰할 수 있는 신호가 제공되면 그 신호를 중심으로 표현을 재구성한다. 따라서 사후 해석 기법이 성공하는 이유와, 동일한 신호를 인위적으로 삽입했을 때 모델이 이를 쓰기 가능한 내부 특징으로 받아들이는 현상이 동일한 근본 메커니즘—즉, 중복을 최소화하려는 효율성 압력—에 기인한다는 점을 논문은 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기