패리티와 변환기의 한계와 새로운 4층 구현
초록
본 논문은 1층 1헤드 트랜스포머가 패리티 함수를 계산할 수 없음을 평균 민감도 분석을 통해 증명하고, 소프트맥스와 길이 독립 위치 인코딩을 사용한 4층 트랜스포머 구조를 제시한다. 제안된 구조는 하드맥스, 레이어 정규화, 길이 의존 인코딩 없이도 완전 및 인과 마스킹 환경에서 패리티를 정확히 구현한다.
상세 분석
논문은 먼저 패리티 함수가 가장 민감한 부울 함수임을 상기한다. 입력 길이 n에 대해 평균 민감도 as(f) 는 모든 입력에 대해 민감도 sₓ(f) 를 평균한 값이며, 패리티의 경우 as(parity)=Θ(n)이다. 저자들은 1층 1헤드 트랜스포머가 구현할 수 있는 함수들의 평균 민감도가 O(√n)으로 제한된다는 정리를 증명한다. 핵심 아이디어는 1층 구조가 각 토큰에 대해 선형 변환 후 소프트맥스 기반 어텐션을 수행하고, 최종 출력은 마지막 토큰의 선형 조합에 비선형 피드포워드 네트워크를 적용한다는 점이다. 이 과정에서 각 출력은 입력 비트들의 선형 조합에 대한 임계값 판단으로 귀결되며, 실수 연산의 양자화 없이도 실수 이론(R,+,<)의 양화사 제거 결과를 이용해 출력이 다항식 형태의 부등식 집합에 의해 결정된다는 점을 이용한다. 부등식의 개수가 O(n)이지만, 1헤드 구조에서는 각 부등식이 입력 비트와 선형 관계를 갖기 때문에, 임의의 입력에 대해 변화를 일으키는 비트 수는 √n 수준으로 제한된다. 따라서 평균 민감도가 Θ(n)인 패리티를 1층 1헤드 트랜스포머가 구현하는 것은 불가능함을 보인다.
다음으로 저자들은 4층, 다헤드(헤드 수는 논문에 명시되지 않았으나 최소 2 이상) 구조를 설계한다. 주요 설계 요소는 다음과 같다. (1) 길이 독립 위치 인코딩 PE(i)=g(i)로, g(i)∈ℝᵈ는 다항식 성장(예: i·e₁)이며, 입력 길이에 따라 변하지 않는다. (2) 모든 어텐션 레이어는 소프트맥스 기반 풀 어텐션과 인과 마스킹 버전을 모두 지원하도록 설계했으며, 마스킹 여부에 관계없이 마지막 토큰이 전체 입력을 집계한다. (3) 레이어 정규화와 하드맥스는 사용하지 않으며, 대신 각 레이어 후에 ReLU와 선형 변환을 적용해 비선형성을 확보한다. (4) 첫 번째 레이어는 입력 비트를 두 그룹으로 나누어 각각의 그룹 합을 추출하고, 두 번째 레이어는 이 합들을 서로 교차시켜 짝수/홀수 정보를 강화한다. 세 번째 레이어는 그룹 합의 차이를 계산해 최종 패리티 비트를 얻으며, 네 번째 레이어는 이 값을 스칼라 형태로 변환해 소프트맥스 출력에 전달한다. 전체 과정에서 각 레이어는 O(1)개의 파라미터만 추가로 사용하므로 파라미터 수는 다항식 수준에 머문다. 실험적 검증은 언급되지 않았지만, 이론적 분석에 따르면 제안된 4층 트랜스포머는 입력 길이 n에 대해 정확히 parity(x₁⊕…⊕xₙ)를 출력한다.
마지막으로 논문은 기존 연구와의 관계를 정리한다. 하드 어텐션 기반 UHA·AHA 모델은 AC⁰ 한계에 묶이지만, 소프트맥스 기반 모델은 하드 어텐션을 근사할 수 있는 조건이 제한적이었다. 저자들은 길이 독립 위치 인코딩과 소프트맥스만으로도 패리티를 구현할 수 있음을 보여줌으로써, 소프트 어텐션의 표현력에 대한 기존 인식을 확장한다. 또한 평균 민감도 기법을 통해 1층 1헤드 트랜스포머의 한계를 최초로 정량화한 점도 학술적 기여로 평가된다. 전체적으로 이 논문은 트랜스포머의 레이어 깊이와 헤드 수가 함수 복잡도에 미치는 영향을 명확히 밝히며, 실용적인 설계 원칙을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기