대칭 파괴를 통한 효율적 트랜스포머 학습과 해석 가능성 향상
초록
이 논문은 트랜스포머의 어텐션 헤드가 갖는 회전 대칭을 배치별 무학습 쿼리·밸류 편향으로 깨뜨려, 메모리 효율적인 옵티마이저(ECD)의 성능을 크게 끌어올리고, 토큰 클래스별 어텐션 가중치를 직관적으로 조절할 수 있는 해석 가능성을 제공한다.
상세 분석
트랜스포머 어텐션은 쿼리와 키, 밸류와 출력 가중치를 동시에 같은 직교 변환 R∈O(d)으로 회전시켜도 내적과 소프트맥스 결과가 변하지 않는다. 이는 파라미터 공간에서 연속적인 회전 대칭군을 형성하며, Noether 정리에 따라 해당 방향의 공액 모멘텀(즉, 파라미터의 운동량)이 보존된다. 에너지 보존 하강(ECD)과 같은 물리 기반 옵티마이저는 전체 해밀토니안을 보존하면서 움직이므로, 이러한 보존량은 탐색을 제한하고 손실 감소 방향으로의 진입을 방해한다. 반면 AdamW·SOAP 같은 적응형 옵티마이저는 추가적인 상태 변수와 프리컨디셔닝을 통해 암묵적으로 이 보존량을 깨뜨리지만, 메모리 비용이 크게 증가한다.
저자들은 “선호 방향”을 도입하기 위해 배치마다 무작위로 샘플링된 고정 편향 b_Q, b_V를 쿼리·밸류에 더한다. 이 편향은 회전 대칭을 명시적으로 깨뜨려, 보존된 각운동량을 해소하고 파라미터가 자유롭게 손실 표면을 탐색하도록 만든다. 특히 b_Q는 키와의 내적에 선형적으로 작용해 e^{k·b_Q} 형태의 가중치 스케일링을 유도한다. 따라서 특정 토큰 클래스(예: 숫자, 논리 연산자 등)가 평균적으로 b_Q와 정렬되면 해당 토큰에 대한 어텐션이 과도하게 강화되고, 반대로 반대 방향이면 억제된다. 이는 기존 트랜스포머가 제공하지 못했던 해석 가능한 조절 메커니즘이다.
실험에서는 124M 파라미터 GPT‑2 모델을 네 가지 옵티마이저(AdamW, SOAP, SGDM, ECD)로 사전학습하고, 검증 손실과 논리 추론 벤치마크를 평가했다. 대칭 파괴 없이 ECD는 손실 감소가 느리고 논리 추론 성능이 낮았지만, b_Q·b_V를 삽입한 후에는 AdamW·SOAP 수준으로 격차가 사라졌다. 특히 ECD는 메모리 사용량이 2N(보조 변수)만 필요함에도 불구하고, 동일한 학습 비용으로 더 빠른 수렴과 높은 논리 정확도를 달성했다. 또한 모든 옵티마이저에서 b_Q가 의미 있는 토큰 클래스와 강하게 정렬되는 현상이 관찰됐으며, 이 정렬 정도가 다운스트림 논리 성능과 높은 상관관계를 보였다.
이러한 결과는 (1) 트랜스포머의 구조적 대칭이 학습 역학에 실질적인 제약을 가한다는 이론적 주장을 실증적으로 입증하고, (2) 간단한 편향 삽입만으로 메모리 효율적인 옵티마이저의 성능을 크게 향상시킬 수 있음을 보여준다. 더 나아가, 쿼리 편향을 이용한 어텐션 가중치 조절은 모델 내부의 의미론적 흐름을 직접 시각화하고 해석하는 새로운 도구가 된다.
댓글 및 학술 토론
Loading comments...
의견 남기기