변환기 방향 최적화 비대칭: 인공 스트레스 테스트

초록

변환기는 이론적으로 좌→우와 우→좌 매핑을 구분하지 않는 역전대칭성을 가진다. 그러나 자연어에 대한 실증 연구는 반복적으로 “역전 저주”를 보고하고, 최근 LLM의 시간 비대칭성에 관한 연구는 실제 코퍼스가 자체적인 시간 화살표를 포함하고 있음을 시사한다. 따라서 방향성 실패가 언어 통계에 기인한 것인지, 아니면 아키텍처 자체에 내재된 것인지가 미해결 문제로 남는다. 우리는 이러한 모호성을 해소하기 위해 엔트로피가 제어된 완전 합성 벤치마크를 설계하였다. 분기 계수 K를 조정 가능한 임의 문자열 매핑을 이용해, 조건부 엔트로피가 0인 정방향 과제와 분석적으로 결정된 엔트로피 하한을 갖는 역방향 과제를 구성한다. 이 하한 위의 초과 손실은, 동일 데이터에 대해 MLP를 학습시킨 경우보다 훨씬 큰 방향 최적화 격차(예: K=5에서 1.16 nats)를 보여준다. 사전 학습된 초기화는 최적화 행동을 변화시키지만 격차를 없애지는 못하며, LoRA는 고엔트로피 역방향 매핑에서 급격한 용량 한계에 직면한다. 이러한 결과는 언어적 선입견, 토큰 빈도, 코퍼스 수준의 시간 비대칭성을 제거한 상황에서도 인과적 변환기 학습에 내재된 최소한의 의미‑무관 방향 마찰을 분리해낸다. 우리의 벤치마크는 현대 시퀀스 모델의 방향성 편향을 체계적으로 분석할 수 있는 통제된 도구를 제공하며, 변환기에서 역전이 근본적으로 더 어려운 이유에 대한 기계적 연구를 촉진한다.

상세 요약

이 논문은 변환기(Transformer) 모델이 이론적으로는 입력 순서에 대한 대칭성을 가져야 함에도 불구하고, 실제 학습 과정에서 좌→우와 우→좌 매핑 사이에 눈에 띄는 성능 격차가 발생한다는 현상을 정량적으로 규명한다. 기존 연구들은 주로 자연어 코퍼스의 통계적 특성—예를 들어 어순 규칙, 시제 표현, 서술적 흐름 등—이 이러한 “역전 저주”의 원인이라고 주장해 왔다. 그러나 자연어는 복잡한 의미 구조와 빈도 편향을 동시에 포함하고 있기 때문에, 아키텍처 자체의 한계인지, 데이터 자체의 비대칭성인지 구분하기가 어렵다.

이를 해결하기 위해 저자들은 완전 합성 데이터셋을 설계했다. 문자열 길이와 알파벳 집합을 고정하고, 각 입력 문자열에 대해 K개의 가능한 다음 토큰을 무작위로 할당함으로써 ‘분기 계수(K)’를 조절한다. 정방향 과제는 각 입력에 대해 정확히 하나의 정답이 존재하도록 설계돼 조건부 엔트로피가 0이 된다. 반면 역방향 과제는 같은 매핑을 뒤집어 적용하되, 여러 가능한 선행 문자열이 동일한 후속 문자열에 매핑될 수 있게 함으로써 엔트로피 하한을 analytically 계산한다. 이렇게 하면 두 과제는 동일한 데이터 양과 동일한 토큰 분포를 공유하면서도, 순수하게 ‘역전’이라는 연산 자체가 얼마나 어려운지를 측정할 수 있다.

실험에서는 GPT‑2 구조를 처음부터 학습시킨 경우와, 대규모 텍스트 코퍼스로 사전 학습된 가중치를 초기화한 경우를 모두 비교했다. 결과는 놀라웠다. 정방향 과제에서는 거의 이론적 최적 손실에 근접했지만, 역방향 과제에서는 최소 1.16 nats( K=5) 정도의 초과 손실이 지속적으로 관찰되었다. 이는 같은 모델이 동일한 데이터 분포에서도 방향에 따라 최적화 난이도가 달라짐을 의미한다. 또한, 동일한 합성 데이터를 MLP(다층 퍼셉트론)에게 학습시켰을 때는 역방향과 정방향 간 손실 차이가 미미했으며, 이는 순환적(autoregressive) 인코딩 메커니즘이 비대칭성을 야기한다는 가설을 뒷받침한다.

추가적으로, LoRA( Low‑Rank Adaptation)와 같은 파라미터 효율적 적응 기법을 적용했을 때는 고엔트로피 역방향 매핑(K가 클수록)에서 급격한 성능 한계가 나타났다. 이는 제한된 용량의 저차원 적응 파라미터가 복잡한 역전 매핑을 충분히 표현하지 못한다는 점을 시사한다.

이러한 발견은 두 가지 중요한 시사점을 제공한다. 첫째, 변환기의 인과적(autoregressive) 학습 방식 자체가 방향성 마찰을 내재하고 있음을 보여준다. 이는 모델이 과거 토큰을 기반으로 다음 토큰을 예측하도록 설계된 구조적 특성 때문이며, 역방향(즉, 과거를 추론하는) 작업은 본질적으로 더 많은 불확실성을 내포한다. 둘째, 사전 학습된 초기화가 최적화 경로를 약간 완화시킬 수는 있지만, 근본적인 비대칭성을 제거하지는 못한다. 따라서 “역전 저주”는 단순히 데이터의 시간적 비대칭성에 기인한 것이 아니라, 변환기 아키텍처와 학습 목표가 결합된 결과임을 확인할 수 있다.

이 논문의 합성 스트레스 테스트는 향후 연구에서 변환기의 구조적 한계를 정밀하게 분석하고, 역전 작업에 특화된 새로운 학습 전략이나 아키텍처 변형을 설계하는 데 유용한 기준점이 될 것이다.

초록

상세 요약

📜 논문 원문 (영문)