역전 저주와 결합 문제: 트랜스포머 한계와 해결 방안
초록
LLM이 “역전 저주”라 불리는 기본적인 일반화 실패를 보이는 원인을, 인지과학·신경과학에서 오랫동안 논의된 결합 문제와 연결한다. 저자는 트랜스포머가 개념을 일관되게 바인딩하지 못하고, 서로 얽힌 표현 때문에 역전 규칙을 학습하지 못한다는 두 가지 가설을 제시한다. 개념 수준에서의 학습은 성공하지만, 표면 형태(텍스트)에서는 실패한다. 이를 해결하기 위해 저자는 JEPA 기반의 공동 임베딩 예측 구조와 전용 메모리 레이어를 도입한 모델을 설계하고, 실험을 통해 역전 저주를 크게 완화함을 보여준다.
상세 분석
본 논문은 LLM이 “역전 저주”(Reversal Curse)라 불리는 현상—예를 들어 “Tom Smith의 아내는 Mary Stone”이라는 사실을 학습한 뒤, “Mary Stone의 남편은?”이라는 질문에 올바르게 답하지 못하는 문제—를 결합 문제(binding problem)의 한 형태로 재해석한다. 결합 문제는 인지과학·신경과학에서 ‘분산된 정보가 하나의 통합된 개념으로 결합되는 메커니즘’을 의미하며, 저자는 이를 개념 결합(conceptual binding) 차원에서 트랜스포머의 두 가지 구조적 한계와 연결한다.
첫 번째 한계는 **표현의 일관성(inconsistency)**이다. 트랜스포머는 입력 토큰을 표면 형태로 처리하고, 하위 레이어에서 이를 개념 임베딩으로 매핑한다. 그러나 동일한 실체가 주어‑목적어 역할을 바꿀 때(예: “Tom”이 주어일 때와 목적어일 때) 해당 실체의 내부 표현이 서로 다른 서브스페이스에 위치한다. 결과적으로 모델은 “Tom‑Mary”와 “Mary‑Tom”을 서로 독립적인 사건으로 인식해, 역전 규칙을 하나의 통합된 지식으로 묶지 못한다. 이는 인간이 다양한 맥락에서 동일한 개념을 동일하게 인식하는 방식과 근본적으로 다르다.
두 번째 한계는 **표현의 얽힘(entanglement)**이다. 트랜스포머는 표면 형태 → 개념 임베딩 변환을 전역적인 MLP와 선형 투사로 수행한다. 학습 단계에서 손실에 대한 그래디언트는 여러 개념의 은닉 활성화가 겹치는 부분(αᵀβ) 만큼 서로 섞여 업데이트된다. 즉, 개념 a와 b가 동시에 활성화되면 a의 파라미터 업데이트에 b의 그래디언트가 섞여 들어가며, 개념 간 경계가 흐려진다. 이러한 얽힘은 특히 깊은 모델일수록 누적되어, 역전과 같이 미세한 관계를 학습할 때 일반화 손실을 가중시킨다.
논문은 이러한 가설을 검증하기 위해 두 단계 실험을 수행한다. 첫 번째 실험에서는 개념 수준(각 실체와 관계를 고유 임베딩으로 직접 제공)에서 표준 디코더‑전용 트랜스포머를 학습시켰으며, MRR이 0.95 이상으로 역전 규칙을 거의 완벽히 습득함을 보였다. 이는 트랜스포머 자체가 역전 자체를 불가능하게 만드는 구조적 제약이 아니라, 표면 형태와 개념 매핑 과정에서 발생하는 결합 문제임을 시사한다.
두 번째 실험에서는 표면 형태 입력만을 사용해 동일한 역전 과제를 학습시켰다. 여기서 모델은 깊이에 따라 성능이 급격히 저하되고, 특히 12‑18 레이어에서는 MRR이 0.80 이하로 떨어졌다. 추가 분석을 통해, 동일 실체가 주어‑목적어 역할을 전환할 때 내부 표현의 코사인 유사도가 낮으며, 학습 초기에 서로 얽힌 개념들의 그래디언트 혼합 비율이 높아지는 것을 확인했다.
이러한 문제를 해결하기 위해 저자는 JEPA(Joint‑Embedding Predictive Architecture) 기반의 공동 임베딩 예측 프레임워크를 제안한다. 입력 토큰을 먼저 인코더‑레벨에서 개념 임베딩으로 매핑하고, 이 임베딩들 간의 대조학습(in‑batch contrastive)으로 상호 일관성을 강제한다. 이후 디코더는 개념 임베딩을 직접 예측하도록 설계되어, 표면 형태와 개념 사이의 비선형 매핑을 최소화한다. 실험 결과, JEPA‑기반 모델은 표면 형태 입력에서도 MRR 0.92를 달성했으며, 기존 데이터 증강이나 비인과적 마스킹 없이도 역전 저주를 크게 완화했다.
추가로, 전용 메모리 레이어(key‑value 메모리 혹은 외부 연관 메모리)를 인식 모듈에 삽입해 개념 표현을 명시적으로 분리·보존하도록 설계하였다. 이 메모리 레이어는 각 개념에 대한 고정된 슬롯을 제공해, 학습 중 다른 개념의 그래디언트가 해당 슬롯에 섞이는 것을 방지한다. 메모리 레이어를 포함한 모델은 깊이가 증가해도 성능 저하가 거의 없으며, 24‑레이어 설정에서도 MRR 0.94를 유지했다.
전체적으로 논문은 (1) 역전 저주가 결합 문제의 구체적 사례임을 이론적으로 정립하고, (2) 일관성 결여와 얽힘이라는 두 가지 메커니즘을 실증적으로 입증하며, (3) JEPA와 메모리 레이어를 결합한 새로운 아키텍처가 기존 접근법을 뛰어넘는 해결책임을 보여준다. 이는 LLM이 인간 수준의 시스템적 개념 결합을 달성하기 위한 중요한 첫 걸음으로 평가될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기