LLM 오류를 다중테이프 튜링머신으로 해석
초록
본 논문은 대형 언어 모델(LLM)의 추론 과정을 7개의 테이프와 명시적 상태 전이로 구성된 결정적 다중테이프 튜링머신으로 형식화한다. 토크나이징, 파라미터 접근, 어텐션 연산, 확률 샘플링, 디토크나이징 등 각 단계가 별도 테이프에 매핑됨으로써 오류가 발생하는 정확한 단계와 원인을 이론적으로 추적할 수 있다. 문자‑레벨 카운팅 실패와 중첩 구조 처리 한계를 사례로 보이며, 체인‑오브‑생각(CoT) 프롬프트가 출력 테이프에 중간 계산을 외부화하는 메커니즘임을 설명한다.
상세 분석
논문은 먼저 LLM의 전체 파이프라인을 ‘문자 입력( Tape1 ) → 토큰화( Tape2 ) → 어휘·토크나이저 메타데이터( Tape3 ) → 모델 파라미터( Tape4 ) → 작업 공간·KV 캐시( Tape5 ) → 로짓·확률( Tape6 ) → 문자 출력( Tape7 )’이라는 일곱 개의 테이프로 분해한다. 각 테이프는 고유 알파벳과 헤드 움직임(L,R,S)을 갖는 전통적인 튜링머신의 구성 요소와 동일하게 정의되며, 전이 함수 δ는 단계별 연산을 명시한다.
특히 토큰화 단계에서 BPE 규칙이 Tape3에 저장되고, 입력 문자열이 규칙에 따라 반복적으로 병합돼 Tape2에 토큰 ID가 기록된다. 이때 문자‑레벨 구조가 토큰 단위로 압축되면, 이후의 Forward Computation 단계(Q_fwd)에서는 내부 문자 정보를 직접 접근할 수 없게 된다. 논문은 ‘Strawberry’ 예시를 통해 전체 토큰이 하나일 경우(단일 토큰)와 서브워드 토큰으로 분할될 경우(다중 토큰) 각각이 카운팅 연산을 수행할 수 없는 이유를 상세히 보여준다.
Forward Computation 단계에서는 토큰 ID를 임베딩으로 변환하고, 어텐션과 피드포워드 연산을 수행한다. 어텐션은 Tape5에 KV 쌍을 캐시하고, 제한된 윈도우(L_max) 내에서만 토큰 간 상관관계를 계산한다. 이 설계는 문자‑레벨 정밀도가 요구되는 작업(예: 특정 문자 빈도 세기)에서 어텐션 가중치가 토큰 경계를 넘어섰을 때 희석(dilution) 현상이 발생함을 설명한다. 또한 수치 정밀도 한계가 어텐션 가중치를 0 또는 1에 가깝게 만들면 ‘헤드 포화’ 현상이 일어나, 사실상 결정적 선택이 되지만 여전히 문자‑레벨 연산을 수행하지 못한다.
재귀적 센터-임베딩 예시에서는 동일 토큰 ‘that’이 여러 레벨에서 사용되면서 구조적 구분이 사라진다. 논문은 이를 Q_fwd에 스택(push/pop) 상태가 없기 때문에 트랜스포머가 컨텍스트-센시티브(타입‑1) 문법을 구현하지 못하고, 컨텍스트-프리(타입‑2) 수준에 머무른다고 해석한다. 따라서 깊은 중첩 구조를 정확히 처리하려면 Tape5에 명시적 스택 영역을 두고 q_push, q_pop, q_check 같은 전이 상태를 추가해야 함을 제안한다.
CoT 프롬프트는 출력 테이프(Tape7)에 중간 추론 단계(‘scratchpad’)를 기록함으로써, 원래 모델 내부에 없던 명시적 연산을 외부화한다. 이는 TM 모델에서 새로운 전이 집합을 삽입해 ‘중간 결과 쓰기 → 선택 → 다시 쓰기’ 순환을 만들고, 오류가 발생하는 단계(예: 토큰 선택)와 성공적인 단계(중간 계산 기록)를 구분할 수 있게 한다. 그러나 CoT도 결국 출력 테이프에 의존하므로, 내부 연산이 부족한 경우(예: 문자‑레벨 반복)에는 근본적인 해결책이 되지 못한다는 한계를 명시한다.
마지막으로, 논문은 확률적 디코딩을 무작위 비트 테이프(R)로 모델링하고, 빔 서치를 위해 다중 Tape2·Tape6 복제와 스코어보드 테이프를 도입하는 방법을 제시한다. 이는 기존의 확률적 샘플링을 튜링머신 수준에서 형식적으로 정의함으로써, 실험적 스케일링 법칙과는 별개로 ‘어떤 문제는 이론적으로 풀 수 없으며, 어떤 문제는 파이프라인에 적절한 전이와 테이프가 추가될 때만 해결 가능하다’는 결론을 뒷받침한다.
댓글 및 학술 토론
Loading comments...
의견 남기기