GPT‑2 감성 처리 메커니즘: 초기 어휘 탐지와 후기 통합의 비계층적 구조

초록

본 연구는 GPT‑2 12계층 전체에 걸친 활성화 패칭 실험을 통해 감성 정보가 어떻게 흐르는지를 인과적으로 분석한다. 초기 0‑3층이 위치‑특정한 어휘 감성 신호를 독립적으로 인코딩함을 확인했으며, 중간층에 대한 기존의 “중간층 집중”·“현상 별 특수화”·“분산 처리” 가설은 모두 기각하였다. 대신, 부정, 풍자, 도메인 전이 등 복합적 맥락 현상은 8‑11층에서 통합적으로 처리되는 비모듈식 메커니즘으로 구현된다. 이는 GPT‑2가 계층적 감성 처리 모델과는 다른, 후기층 중심의 통합 방식을 사용한다는 새로운 증거를 제공한다.

상세 요약

본 논문은 메커니즘 해석(interpretability) 분야에서 최근 주목받는 인과적 활성화 패칭(activation patching) 기법을 GPT‑2에 적용함으로써, 감성 분석 작업에서 각 층이 수행하는 역할을 정밀하게 분리한다. 실험 설계는 두 단계로 구성된다. 첫 번째는 “lexical‑only” 입력(예: “good”, “bad” 등 순수 어휘)과 “context‑rich” 입력(예: 부정어, 풍자 문맥) 사이에 특정 층의 활성화를 교체(patch)하여, 해당 층이 감성 출력에 미치는 영향을 측정한다. 두 번째는 “layer‑wise ablation”과 “gradient‑based attribution”을 병행해, 각 층의 신호가 얼마나 안정적이고 위치‑특정적인지를 정량화한다.

결과는 0‑3층이 거의 순수 어휘 감성 신호를 보존한다는 점을 강력히 뒷받침한다. 이들 층의 활성화는 입력 위치에 따라 일관된 polarity vector를 생성하며, 문맥 변동에도 거의 변하지 않는다. 반면, 4‑7층에서는 기존 가설이 예측한 바와 같이 특정 현상(예: 부정어 처리)이 집중되는 패턴이 관찰되지 않는다. 오히려 이 구간은 신호가 약해지고, 패칭 효과도 미미하다.

가장 눈에 띄는 발견은 8‑11층에서 복합적 맥락이 급격히 통합된다는 점이다. 부정어 “not”, 풍자적 어조 “yeah right”, 도메인 전이 “movie review vs. product review” 등 다양한 상황을 동일한 late‑layer 활성화 패턴이 포착한다. 이는 “Unified Non‑Modular Integration”이라는 새로운 메커니즘으로 해석될 수 있다. 즉, GPT‑2는 중간층에서 현상을 별도로 처리하지 않고, 후기층에서 모든 맥락 정보를 하나의 고차원 표현으로 융합한다.

이러한 비계층적 처리 방식은 기존의 “두 단계 감성 아키텍처”(lexical detection → contextual integration) 모델을 부분적으로만 지지한다. 초기 어휘 탐지는 확인되지만, 중간층에서의 단계적 통합은 부정확하다. 논문은 또한 모델 규모와 훈련 데이터 다양성이 이러한 비모듈식 통합을 촉진했을 가능성을 제시한다. 향후 연구는 더 큰 모델(예: GPT‑3, GPT‑4)이나 다른 언어에 대한 동일한 패칭 실험을 통해, 이 메커니즘이 보편적인지 여부를 검증할 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)