컴포지셔널 추론을 위한 트랜스포머·RNN·CoT 비교 분석
초록
본 논문은 트리 구조를 갖는 컴포지셔널 추론 질문(CRQ)을 정의하고, 깊이 제한 트랜스포머, 제한된 차원의 순환 신경망(RNN), 그리고 체인‑오브‑쓰리(Chain‑of‑Thought, CoT) 토큰을 이용한 트랜스포머가 각각 어떤 자원(깊이, 임베딩 차원, CoT 토큰 수)과 트레이드오프를 통해 CRQ를 해결할 수 있는지를 이론적으로 규명한다. 깊이·차원·토큰 수가 입력 크기에 비례해야 함을 보이며, 각 아키텍처가 갖는 강점과 약점을 정량화한다.
상세 분석
이 논문은 먼저 “Compositional Reasoning Questions (CRQ)”라는 문제 클래스를 형식화한다. CRQ는 각 노드가 고정 차원의 벡터로 라벨링된 루트 트리이며, 리프 노드의 벡터가 답이 되고, 내부 노드는 자식들의 벡터와 자신의 라벨 간 내적을 통해 arg‑max 연산을 수행해 새로운 벡터를 만든다. 이 정의는 불리언 공식 평가와 같은 NC¹‑완전 문제를 포함한다는 점에서 이론적 의미가 크다.
트랜스포머에 대해서는 두 가지 핵심 정리를 제시한다. 첫째, 깊이 L인 트랜스포머는 트리 깊이가 ≤ L인 모든 CRQ를 정확히 해결할 수 있음을 보이며, 이를 위해 각 레이어가 동일 깊이의 서브트리를 병렬적으로 처리하도록 설계한다. 임베딩 차원은 O(d + log n) 정도면 충분하다. 둘째, 상수 깊이(즉, 입력 크기에 독립적인 깊이) 트랜스포머는 TC⁰에 제한되는 계산 능력만을 갖기 때문에 일반적인 CRQ를 풀 수 없다는 하드리티 결과를 제시한다. 이는 기존 연구가 보여준 “깊이는 계산 능력의 핵심”이라는 직관을 엄밀히 증명한다.
RNN에 대해서는 숨겨진 차원의 크기가 핵심 자원임을 밝힌다. 입력 순서가 트리의 위에서 아래로(또는 레벨 순서) 정렬될 경우, O(log n) 차원의 은닉 상태만으로도 모든 CRQ를 해결할 수 있는 알고리즘을 제시한다. 이는 RNN이 순차적 처리 특성 때문에 입력 순서에 크게 의존한다는 점을 강조한다. 반면, 입력이 적대적으로 섞여 있으면 은닉 차원을 O(n)까지 늘려야 함을 정리 5.2에서 증명한다. 따라서 RNN은 메모리(차원)와 입력 정렬 사이에 명확한 트레이드오프를 가진다.
마지막으로 CoT 토큰을 활용한 트랜스포머를 분석한다. 논문은 CoT 토큰이 “외부 메모리” 역할을 하여 깊이 제한을 완화시킬 수 있음을 보인다. 구체적으로, O(log n) 개의 CoT 토큰만으로는 일반 CRQ를 해결할 수 없으며, 입력 크기 n에 비례하는 O(n) 개의 CoT 토큰이 필요함을 정리 6.1에서 증명한다. 이때 모델 자체는 상수 깊이(얕은) 트랜스포머이지만, 토큰 수가 늘어남에 따라 순차적 생성 과정이 길어져 병렬성이 크게 감소한다.
표 1은 세 아키텍처가 각각 최소화하는 자원(파라미터 수, 런타임, 병렬 런타임)을 정리하고, 깊이‑log n 트랜스포머는 높은 병렬성을, O(log n) 차원 RNN은 낮은 파라미터 수와 빠른 순차 실행을, O(n) CoT 트랜스포머는 단일 모델로 모든 문제를 풀 수 있지만 실행 시간이 가장 오래 걸린다는 점을 시각화한다.
전체적으로 이 논문은 “하나의 아키텍처가 모든 경우에 최적이다”는 직관에 반하여, 문제 구조와 자원 제약에 따라 서로 다른 모델이 각각 최적의 선택이 될 수 있음을 이론적으로 뒷받침한다. 특히, 트리 구조를 명시적으로 인코딩하는 방식이 모델의 효율성을 크게 좌우한다는 점은 실제 LLM 설계에 중요한 시사점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기