왼쪽 중첩 직관주의 함의로 보는 다음 토큰 예측
초록
본 논문은 토큰 시퀀스를 왼쪽 중첩 함의 체인으로 인코딩하고, 다음 토큰 예측을 직관주의 논리의 modus ponens에 대응시키는 새로운 신경망 구조인 Arrow Language Model을 제안한다. 논리적 증명 과정을 신경망의 순환 상태 업데이트와 동일시하고, Prolog 기반 정리 증명기를 통해 모델의 논리적 성질을 검증한다. 또한, 이 구조가 곱셈 RNN과 동등함을 보이고, 저차원 구현과 Transformer·State‑Space 모델과의 관계를 논의한다.
상세 분석
이 논문은 자연어 생성에서 가장 기본적인 작업인 다음 토큰 예측을 전통적인 확률‑분포 모델이 아니라, 직관주의 명제 논리의 함의 연산으로 재해석한다. 핵심 아이디어는 시퀀스 w₁,…,wₙ을 왼쪽 중첩 함의 Lₙ = ((((w₁→w₂)→w₃)→… )→wₙ) 로 변환하고, 이 구조가 토큰 순서를 비가환적으로 보존한다는 점이다. 왼쪽 중첩은 순서가 바뀌면 타입 자체가 달라져 증명 가능성이 변하므로, 토큰 순서가 논리적 의미와 직접 연결된다. 논문은 이를 증명하기 위해 Dyckhoff의 LJT 계산법을 Prolog로 구현한 iprove와 lprove를 제시한다. iprove는 순수한 함의 체계에서 modus ponens만을 사용해 정리를 검증하고, lprove는 Curry‑Howard 동형을 이용해 증명 term을 λ‑식으로 추출한다.
다음 토큰 예측은 “프리픽스 함의 Iₚ와 전체 함의 I_f = (Iₚ→w)” 사이의 modus ponens 적용으로 표현된다. 즉, 현재 상태를 나타내는 λ‑함수 Iₚ에 새로운 토큰 w를 인수로 제공하면 I_f가 도출되고, 이는 신경망에서 상태 벡터에 새로운 연산자를 적용하는 과정과 일치한다. 논문은 이 과정을 “증명 연장”이라고 부르며, 증명 단계가 바로 순환 신경망의 시간 단계와 1:1 대응한다는 명제를 제시한다(Implication Depth ↔ Recurrence Steps).
또한, 왼쪽 중첩 함의가 오른쪽 중첩(또는 conjunction‑to‑implication) 형태와 변환 가능한 정리를 제시한다. 예를 들어 ((p→q)→r) → (p→q→r) 와 같은 정리는 함의 체인의 커링 원리를 보여주며, 단일 토큰 예측과 다중 토큰 연속 예측을 동일한 논리 구조 안에서 설명한다. 이러한 정리들은 모델이 프리픽스를 “컴파일”해 연속적인 continuation 함수를 생성하도록 설계될 수 있음을 시사한다.
신경망 구현 측면에서 저자들은 각 토큰을 선형 변환 행렬(또는 저차원 텐서)으로 보고, 함의 연산을 비가환 행렬 곱으로 근사한다. 이때 상태 sₜ는 sₜ₊₁ = fₜ(sₜ) 형태의 재귀식으로 업데이트되며, fₜ는 토큰 wₜ에 대응하는 연산자이다. 저차원 구현은 행렬의 저랭크 근사와 공유 파라미터를 이용해 파라미터 효율성을 확보한다. 실험에서는 이 구조가 기존 Multiplicative RNN과 수치적으로 동등함을 보이며, Transformer의 self‑attention이 암묵적으로 수행하는 순서 인코딩을 명시적인 함의 연산으로 대체한다는 점을 강조한다.
마지막으로, 논문은 Prolog 기반 정리 증명기를 이용해 데이터베이스에 저장된 문장들의 함의 체인을 질의하고, 프리픽스·서픽스 추출 메커니즘(isufpref)으로 정보 검색을 수행한다. 이는 논리적 증명 과정이 실제 언어 모델의 메모리 검색과 연계될 수 있음을 보여준다. 전체적으로 이 연구는 확률적 언어 모델을 논리‑수학적 증명 체계와 연결함으로써, 모델 해석 가능성, 구조적 투명성, 그리고 새로운 아키텍처 설계에 대한 이론적 토대를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기