그라디언트‑인과성 격차: 복잡 과제에서 왜 그라디언트 중요도가 실패하는가
초록
이 논문은 트랜스포머 모델을 알고리즘적 과제(역전, 정렬)에 적용해 그라디언트 크기와 실제 인과적 중요도 사이에 존재하는 ‘그라디언트‑인과성 격차’를 정량화한다. 단순 과제에서는 두 지표가 높은 상관(ρ≈0.73)을 보이지만, 과제가 복잡해질수록 상관이 급격히 약화(ρ≈0.32)되고 경우에 따라 역전되기도 한다(ρ≈‑0.11). 저그라디언트지만 인과적으로 핵심인 ‘Hidden Heroes’와 고그라디언트지만 실질적 기여가 적은 ‘Gradient Bloats’를 식별하고, 각각을 제거했을 때 OOD 일반화가 크게 악화되거나, 경우에 따라 오히려 개선되는 양상을 보인다. 결과는 그라디언트 기반 프루닝이 모델의 핵심 회로를 안전하게 보존하지 못한다는 중요한 경고를 제공한다.
상세 분석
본 연구는 두 가지 알고리즘 과제, Sequence Reversal(역전)과 Sequence Sorting(정렬)를 대상으로 4계층·4헤드 구조의 디코더‑전용 트랜스포머를 학습시켰다. 각 attention head와 MLP 서브레이어를 개별 컴포넌트로 정의하고, (1) 평균 Frobenius norm을 이용한 그라디언트 크기 G와 (2) 평균 Ablation을 통한 인과적 중요도 C를 측정하였다. 두 지표 사이의 Spearman 상관 ρ는 역전 과제에서 0.726±0.121로 강하게 양의 관계를 보였지만, 정렬 과제에서는 0.318±0.241으로 크게 약화되고, 한 시드에서는 ‑0.113까지 역전되었다. 이를 ‘Gradient‑Causal Gap(Δ)’이라 정의하고, Δ = Rank(G) − Rank(C)로 계산하였다. Δ가 −6 이하인 경우를 ‘Hidden Heroes’, +6 이상을 ‘Gradient Bloats’로 분류하였다.
정렬 과제에서는 Hidden Heroes가 주로 후반 레이어(L2‑L3)와 특히 L3의 헤드에 집중되는 반면, Gradient Bloats는 초기 레이어(L0‑L1)에서 많이 나타났다. 이는 초기 레이어가 학습 손실을 감소시키는 넓은 특징 추출 역할을 수행하면서도 최종 알고리즘 로직에는 크게 관여하지 않음을 시사한다. 반대로 후반 레이어는 희소하고 논리적인 연산을 담당해 그라디언트 신호가 약함에도 불구하고 인과적으로 필수적이다.
프루닝 실험에서는 Hidden Heroes를 두 개 제거하면 OOD 정확도가 평균 ‑32% 감소했으며, Gradient Bloats를 제거했을 때는 시드에 따라 결과가 양분되었다. 대부분의 시드에서는 ID·OOD 성능에 거의 영향을 주지 않아 ‘Optimization Noise’로 해석되지만, 일부 시드에서는 ID 정확도가 최대 ‑39%까지 급락해 ‘Overfitting Circuits’로 판단된다. 이러한 양극화는 고그라디언트가 반드시 중요한 회로를 의미하지 않으며, 프루닝 시 위험 요소가 될 수 있음을 보여준다.
논문은 또한 그라디언트 기반 해석 기법(Integrated Gradients 등)이 훈련 손실 감소에 초점을 맞추어 실제 추론 회로를 포착하지 못한다는 점을 강조한다. 따라서 모델 압축이나 안전한 배포를 위해서는 인과적 개입(ablations, activation patching 등)으로 검증된 중요도 측정이 필수적이다. 제한점으로는 모델 규모가 작고(4‑layer, 4‑head) 알고리즘적 과제에 국한돼 있어, 대규모 언어 모델이나 자연어 데이터에 동일한 격차가 존재하는지는 추후 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기