초기화된 트랜스포머는 이미 편향을 가지고 있다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 논문은 무작위 초기화된 트랜스포머 모델이 학습 이전부터 특정 토큰을 과도하게 선호한다는 현상을 발견한다. 비대칭적인 MLP 활성화와 자기‑주의 집합 효과가 토큰 표현을 한 방향으로 수축시켜, 다음 토큰 예측 확률을 크게 왜곡한다. 이러한 초기 편향은 학습 과정에서도 유지되어 모델 고유의 “시드 정체성”을 형성하며, 이를 이용해 SeedPrint라는 모델 지문화 기법을 제안한다. 또한, 주의‑싱크 현상의 근본 원인을 구조적 위치 불균형으로 규명하고, 간단한 아키텍처 수정으로 제어 가능함을 보인다.

상세 분석

본 연구는 트랜스포머의 초기화 단계가 완전히 중립적이라는 기존 가정에 근본적인 도전을 제기한다. 실험적으로 무작위 입력 시퀀스를 수천 개 생성하고, 초기화된 nano‑GPT‑2, LLaMA‑2, 1.2B GPT‑2 모델에 대해 최종 토큰 예측을 기록했을 때, 특정 토큰이 전체 토큰 집합 대비 수십 배 높은 빈도로 선택되는 현상을 확인하였다. 이는 단순히 초기 가중치가 균등하게 분포한다는 가정과는 정반대이며, 시드마다 선호 토큰이 달라지는 ‘시드‑특이적 편향’임을 보여준다.

메커니즘 분석에서는 두 가지 상호작용을 제시한다. 첫째, MLP 서브레이어에서 GELU와 같은 비대칭 활성화 함수가 입력 토큰의 고차원 표현을 평균으로 끌어당겨, 서로 다른 시퀀스 간에 공통된 방향으로 수축(concentration)시키는 전역 효과를 만든다. 둘째, 자기‑주의 메커니즘이 같은 시퀀스 내 토큰들의 value 벡터를 가중합하면서, 이미 MLP에 의해 형성된 방향을 더욱 강화한다. 이 두 과정이 결합되면, 마지막 레이어의 토큰 표현은 거의 동일한 방향을 공유하게 되고, 출력 로짓은 해당 방향과 임베딩 행렬 사이의 내적에 의해 특정 토큰이 과도하게 높은 확률을 얻게 된다.

흥미로운 점은 이러한 초기 편향이 학습 과정에서도 크게 변하지 않아, 모델이 성장함에 따라 ‘시드 정체성’이 고정된다는 것이다. 이를 활용해 SeedPrint라는 지문화 방법을 고안했으며, 동일한 데이터와 학습 파이프라인을 사용했음에도 서로 다른 시드로 초기화된 모델을 높은 정확도로 구분할 수 있음을 실험적으로 입증했다. 또한, 논문은 주의‑싱크 현상이 자기‑주의 내부의 위치 불균형(positional discrepancy)에서 기인한다는 가설을 제시하고, attention‑sink을 완화하기 위해 value 집합을 정규화하거나 위치 인코딩을 조정하는 간단한 아키텍처 변형이 효과적임을 보였다.

이 연구는 트랜스포머 설계 단계에서 이미 존재하는 구조적 편향을 정량화하고, 이를 실용적인 보안·제어 도구로 전환한다는 점에서 학술적·산업적 의미가 크다. 다만, 실험이 주로 작은 규모 모델과 제한된 토큰 집합에 머물러 있어, 초대형 LLM(수십억 파라미터)에서의 현상 지속 여부와 실제 배포 환경에서의 지문화 내구성에 대한 추가 검증이 필요하다. 또한, 비대칭 활성화 함수와 RMSNorm 등 다른 초기화 전략이 편향에 미치는 영향을 보다 체계적으로 비교하면, 설계 가이드라인을 제시하는 데 도움이 될 것이다.

초기화된 트랜스포머는 이미 편향을 가지고 있다

초록

상세 분석

댓글 및 학술 토론

의견 남기기