트랜스포머의 이산 추론 한계: 깊이·정밀도·대역폭 관점 통합 조사
초록
본 논문은 트랜스포머가 산술, 논리, 알고리즘 등 이산적 추론 작업에서 겪는 근본적인 제약을 회로 복잡도, 근사 이론, 통신 복잡도라는 세 이론적 틀로 정리한다. 고정된 깊이와 유한 정밀도, 출력 길이 제한이 어떻게 정확한 기호 연산을 방해하는지 분석하고, 깊이 확대, 고정밀 연산, 체인‑오브‑생각(Chain‑of‑Thought) 같은 설계·프롬프트 전략이 이러한 장벽을 완화할 수 있음을 제시한다.
상세 분석
논문은 먼저 트랜스포머 구조를 회로 복잡도 관점에서 살펴본다. 고정된 층 수와 제한된 수치 정밀도는 트랜스포머를 AC⁰ 혹은 TC⁰ 수준의 제한된 깊이·크기의 논리 회로에 대응시킨다. 이러한 회로는 다항식 크기와 상수 깊이를 갖지만, 패리티, 다수결, 중첩된 괄호 언어와 같은 기본적인 이산 함수는 구현하지 못한다. 특히 “hard attention”을 사용하는 경우는 AC⁰에 머무르며, 부드러운 softmax나 RoPE와 같은 변형도 DLOGTIME‑uniform TC⁰를 초과하지 못한다. 따라서 입력 길이가 늘어나도 상수 깊이 트랜스포머는 다자리 수 덧셈이나 복잡한 형식 언어 인식을 수행할 수 없다.
다음으로 근사 이론을 적용한다. 보편 근사 정리(Universal Approximation Theorem)는 충분히 넓은 신경망이 연속 함수를 임의의 정밀도로 근사할 수 있음을 보이지만, 이산 추론에 필요한 불연속·조각상 상수 함수는 근본적으로 부드러운 활성화 함수로는 정확히 재현되지 않는다. 입력이 정수 공간 전체(Nⁿ)로 확장될 경우, 컴팩트한 정의역 가정이 깨지며, 근사 오차는 입력 규모와 함께 선형·지수적으로 증가한다. 결과적으로 트랜스포머는 “경계 부근”에서 시스템적 오류를 범하거나, 급격한 기울기를 만들기 위해 과도한 파라미터와 학습 불안정을 초래한다.
통신 복잡도 관점에서는 셀프‑어텐션이 토큰 간 정보 교환을 제한한다는 점을 강조한다. 두 파티가 각각 입력의 일부를 가지고 함수값을 공동으로 계산해야 하는 상황에서, 최소 비트 교환량(D(f))이 높은 문제(예: Disjointness, Greater‑Than)는 트랜스포머의 O(L²) 어텐션 비용으로는 충분히 전달되지 않는다. 특히 “출력 길이 고정·중간 토큰 없이” 일괄 처리되는 경우, 다단계 논리 연산을 수행하기 위한 라운드 수가 부족해 다중 홉 추론이 실패한다.
논문은 이러한 제약을 완화할 수 있는 구체적 방안을 제시한다. (1) 층 수를 입력 길이에 비례하도록 확장하거나, 외부 메모리·스크래치패드와 결합해 가변 깊이를 제공하면 TC⁰‑위의 복잡도 클래스까지 도달한다. (2) 고정밀 연산(예: 32‑bit 이상 부동소수점 또는 정수 연산)을 도입하면 회로 모델이 AC⁰‑TC⁰ 경계를 넘어설 수 있다. (3) 체인‑오브‑생각(Chain‑of‑Thought) 혹은 스크래치패드 방식으로 출력 길이를 로그·선형·다항 수준으로 늘리면, 단일 전방 패스가 아닌 단계적 계산이 가능해져 모든 부울 회로를 시뮬레이션할 수 있다. 마지막으로, 하이브리드 신경‑심볼릭 아키텍처와 프로그램‑프롬프트 설계가 이산 추론 능력을 근본적으로 강화할 잠재력을 갖는다.
댓글 및 학술 토론
Loading comments...
의견 남기기