트랜스포머 헤드로 구현하는 신경망 양자장 이론

트랜스포머 헤드로 구현하는 신경망 양자장 이론
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 트랜스포머의 단일 및 다중 어텐션 헤드를 이용해 유클리드 스칼라 양자장 이론을 구축한다. 무작위 초기화된 파라미터를 평균함으로써 n점 상관함수를 정의하고, 단일 헤드에서는 소프트맥스 가중치가 공유되어 무한 폭 한계에서도 비가우시안(상호작용) 통계가 남는다. 두 점 함수는 랜덤 푸리에 특징 임베딩을 통해 유클리드 불변 커널로 설계할 수 있다. 네 점 연결 함수는 쿼리‑키 가중치에 대한 공분산 형태의 “독립성 파괴” 항을 포함하며, 이는 헤드 수가 많아질수록 $1/N_h$ 로 억제돼 다중 헤드 한계에서는 가우시안 자유장 이론이 된다.

상세 분석

논문은 먼저 NN‑QFT 프레임워크를 트랜스포머 구조에 적용한다. 스칼라 필드 $\phi(x)$는 헤드 차원 $d_k$개의 출력 좌표 $head_i(x)$와 독립적인 스칼라 계수 $z_i$의 선형 결합 $\phi(x)=\sum_{i=1}^{d_k}z_i,head_i(x)$ 로 정의된다. 여기서 $z_i$는 평균 0, 분산 $\sigma_z^2 d_k^{-1}$ 로 스케일링되어 $d_k\to\infty$에서도 유한한 변동을 유지한다.

단일 헤드의 핵심은 소프트맥스 가중치 $\alpha_{ab}= \text{softmax}(q_a\cdot k_b/\sqrt{d_k})$ 가 모든 출력 차원에 동일하게 적용된다는 점이다. 이 공유 구조는 $d_k$가 무한대로 커져도 독립적인 폭 자유도가 충분히 섞이지 않아 중앙극한정리가 깨진다. 결과적으로 두 점 상관함수 $G^{(2)}(x_1,x_2)$는 $\sigma_z^2\sigma_V^2 d,\mathbb{E}_{W_Q,W_K}!\left


댓글 및 학술 토론

Loading comments...

의견 남기기