트랜스포머와 최적 수송: 깊이와 프롬프트 설계의 본질
초록
이 논문은 트랜스포머의 자기‑어텐션이 엔트로피 정규화 최적 수송(OT) 문제의 듀얼을 풀기 위한 그래디언트 하강을 시뮬레이션한다는 사실을 밝혀낸다. 층이 깊어질수록 어텐션 가중치는 OT 최적 매칭에 점점 가까워지며, 이를 통해 번역 토큰 정렬과 리스트 정렬이 파라미터 변경 없이 가능함을 이론적으로 증명한다. 또한 프롬프트 엔지니어링이 메모리와 연산 능력을 확장해 이러한 동작을 촉진한다는 실험적 증거를 제시한다.
상세 분석
본 연구는 트랜스포머 내부 메커니즘을 최적 수송(Optimal Transport, OT) 문제와 연결시킨 최초의 시도 중 하나이다. 저자들은 기계 번역 실험에서 레이어가 깊어질수록 어텐션 행렬이 단어 임베딩 사이의 최적 매칭 행렬 P* 에 점점 수렴함을 시각화하고, 이를 정량적으로 엔트로피 정규화 OT 해와 비교하였다. 이 현상을 설명하기 위해 소프트맥스 자기‑어텐션을 수식화하고, 각 레이어가 듀얼 OT 목적함수 L(u,v) 에 대한 그래디언트 하강 한 스텝을 구현한다는 정리를 제시한다(정리 3.1). 여기서 u, v 는 듀얼 변수이며, 대각 행렬 Dℓ, D′ℓ 은 학습되지 않은 고정 파라미터로 설정된다. 이론적 분석을 통해 레이어 수 ℓ 가 증가할수록 O(ℓ^{-1/2}) 정밀도로 정규화된 OT 해 P*λ 에 근접한다는 수렴 경계가 도출된다(정리 3.2). 중요한 점은 이 경계가 입력 크기 n 에 독립적이라는 것으로, 충분히 깊은 트랜스포머는 파라미터를 재조정하지 않고도 n 이 큰 정렬·매칭 문제를 해결할 수 있음을 의미한다. 실험에서는 n=7 인 작은 OT 인스턴스로 학습한 모델이 n=9 인 테스트에서 높은 정확도를 보였으며, 프롬프트에 추가적인 메타 정보(예: ‖x‖², ‖y‖², 상수 벡터 등)를 삽입하면 메모리 확장이 이루어져 수렴 속도가 크게 향상된다. 이는 프롬프트 엔지니어링이 트랜스포머의 내부 최적화 루프를 “외부 메모리”처럼 활용한다는 새로운 해석을 제공한다. 논문은 또한 기존의 Sinkhorn‑Attention과 비교해 표준 자기‑어텐션만으로도 충분히 OT를 근사할 수 있음을 실험적으로 입증한다. 한계로는 깊이가 매우 깊어야 하는 경우 계산 비용이 급증하고, 현재 증명은 엔트로피 정규화된 OT에만 적용된다는 점을 들었다. 향후 연구에서는 비정규화 OT, 비선형 비용 행렬, 그리고 실제 대규모 번역 시스템에의 적용을 탐색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기