GPT‑2의 부정 이해: 층·헤드 수준 인과 분석

GPT‑2의 부정 이해: 층·헤드 수준 인과 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 GPT‑2 Small이 부정 문장을 어떻게 내부적으로 처리하는지 탐구한다. 12 000개의 긍정‑부정 문장 쌍을 구축하고, 부정 효과 점수(NES)라는 지표로 모델의 민감도를 측정한다. 활성화 패칭과 헤드 차단·복구(ablation‑rescue) 실험을 통해 부정 신호가 레이어 4‑6, 특히 몇몇 중간층 어텐션 헤드에 집중됨을 밝혀냈다. 해당 헤드를 차단하면 부정 민감도가 크게 감소하고, 긍정 활성화를 재삽입하면 성능이 회복되는 것이 확인되었다. 외부 벤치마크 xNot360에서도 동일한 패턴이 약하지만 존재함을 보였다.

상세 분석

이 논문은 최신 메카니즘 해석 기법을 GPT‑2 Small에 적용해 부정 논리의 내부 회로를 정밀히 추적한다. 먼저 저자들은 12 000개의 문장 쌍을 직접 수집했으며, 여기에는 ‘not’, ‘never’, ‘does not’, ‘doesn’t’, ‘cannot’, ‘can’t’ 등 다양한 부정 형태와 8개의 의미 템플릿(예: “X is the capital of Y”, “X can Y”)이 포함된다. 각 쌍은 부정어만을 교체한 최소 차이 구조이므로, 모델 출력 변화는 순수히 부정 신호에 의한 것임을 보장한다.

부정 효과 점수(NES)는 다음과 같이 정의된다: NES = log P(t|affirmative) − log P(t|negated). 여기서 t는 목표 토큰이며, NES가 음수이면 모델이 부정 문맥에서 올바르게 확률을 낮추어 부정을 인식한다는 의미다. 양수 NES는 부정 민감도가 낮아 모델이 여전히 긍정적 연속성을 선호함을 나타낸다. NES를 템플릿별 평균, 중앙값, 실패율( NES > 0 비율)로 보고함으로써 정량적 행동 기준을 마련했다.

인과 추적 단계에서는 레이어별 활성화 패칭을 수행한다. 긍정 입력에서 마지막 토큰의 post‑attention 벡터를 저장하고, 부정 입력을 진행하면서 동일 위치에 교체한다. ΔNES(L) = NESpatched − NESbaseline을 계산해 각 레이어가 부정 신호에 미치는 영향을 정량화한다. 결과는 레이어 4‑6에서 가장 큰 ΔNES를 보였으며, 이는 부정 정보가 중간층에서 급격히 변환된다는 강력한 증거다.

헤드 수준 분석에서는 각 레이어의 12개 어텐션 헤드 출력을 개별적으로 패칭했다. 평균 ΔNES가 크게 변하는 헤드들을 상위 k개로 선정했는데, L5H11, L4H3, L6H9 등이 반복적으로 등장했다. 이 헤드들은 부정 문맥에서 긍정적 활성화를 삽입하면 NES가 크게 상승(부정 민감도 감소)하고, 반대로 부정 활성화를 삽입하면 NES가 감소하는 양상을 보였다.

그 다음 단계인 ablation‑rescue 실험에서는 위에서 선정한 헤드들을 0으로 차단(ablation)하고, 이후 긍정 실행에서 저장한 활성화를 재삽입(rescue)했다. 내부 데이터셋에서는 차단이 NES를 상승시켜 부정 인식이 약화됐으며, 복구가 추가 상승을 일으켜 긍정 신호가 과도하게 주입된 효과를 확인했다. 외부 xNot360 벤치마크에서는 차단이 NES를 약간 감소시켜 부정 민감도가 오히려 소폭 개선됐고, 복구가 기준선 위로 회복되는 패턴이 관찰됐다. 이는 동일 회로가 다양한 부정 형태와 도메인에 걸쳐 일관되게 작동하지만, 데이터 분포 차이에 따라 효과 크기가 변한다는 점을 시사한다.

논문의 주요 기여는 다음과 같다. (1) 부정 현상을 정량화하는 NES 지표 제안, (2) 레이어‑헤드 수준에서 부정 신호 흐름을 시각화·정량화한 인과 분석 파이프라인 구축, (3) 중간층 어텐션 헤드가 부정 논리의 핵심 회로임을 실험적으로 입증, (4) 외부 벤치마크에서도 동일 메커니즘이 재현됨을 확인함으로써 일반화 가능성을 제시.

한계점으로는 GPT‑2 Small에만 적용했으며, 더 큰 모델(예: GPT‑3, GPT‑4)에서는 회로가 분산될 가능성이 있다. 또한 부정 형태를 제한된 7가지로만 실험했으며, 복합 부정(예: “not only … but also …”)이나 이중 부정에 대한 분석은 부족하다. 미래 연구에서는 (a) 대규모 모델에 동일 방법을 확장해 회로의 스케일링을 조사하고, (b) 다중 부정 및 문맥적 부정(예: “hardly”)에 대한 메커니즘을 탐색하며, (c) 발견된 회로를 이용해 모델 편집·수정 기법을 개발해 부정 오류를 직접 교정하는 방향을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기