대형 언어 모델이 소수 인수 분해 트리 시퀀스의 규칙성을 학습할 수 있을까

2026년 02월 23일

읽는 시간: 5 분

...

📝 Abstract

We study whether a Large Language Model can learn the deterministic sequence of trees generated by the iterated prime factorization of the natural numbers. Each integer is mapped into a rooted planar tree and the resulting sequence NT defines an arithmetic text with measurable statistical structure. A transformer network (the GPT-2 architecture) is trained from scratch on the first 10 11 elements to subsequently test its predictive ability under next-word and masked-word prediction tasks. Our results show that the model partially learns the internal grammar of NT , capturing non-trivial regularities and correlations. This suggests that learnability may extend beyond empirical data to the very structure of arithmetic.

💡 Analysis

본 연구는 수학적 구조, 특히 자연수의 소수 인수 분해 과정을 트리 형태로 시각화하고 이를 일련의 기호열(NT)로 전환함으로써, 전통적인 언어 데이터와는 전혀 다른 유형의 ‘텍스트’를 생성한다는 점에서 혁신적이다. 이러한 접근은 수학적 규칙이 내재된 데이터셋이 언어 모델에 의해 얼마나 잘 포착될 수 있는지를 직접 검증할 수 있는 실험적 장을 제공한다.

먼저, 연구진은 각 자연수를 소수 인수들의 계층적 관계로 표현하는 방법을 정의한다. 예를 들어 12는 2·2·3으로 분해되며, 이를 루트에서 시작해 자식 노드가 소수 인수들을 순차적으로 나타내는 평면 트리로 변환한다. 이러한 트리들을 전위 순회(preorder traversal)하거나 다른 일관된 순회 방식으로 문자열화하면, 자연수의 증가에 따라 길이가 점진적으로 늘어나는 일종의 ‘산술 언어’가 된다. 이 언어는 전통적인 자연어와 달리 완전한 결정론적 규칙을 가지고 있으며, 문법적 오류가 존재하지 않는다.

다음 단계에서는 GPT‑2와 동일한 트랜스포머 구조를 10¹¹개의 토큰(≈1000억)으로 구성된 NT 시퀀스로부터 처음부터 학습시켰다. 여기서 주목할 점은 사전 학습된 가중치를 전혀 사용하지 않았다는 것이다. 모델은 순수히 이 인공적인 산술 텍스트만을 학습함으로써, 언어 모델이 ‘패턴’ 자체를 학습하는 메커니즘이 데이터의 통계적 특성에 의존한다는 가설을 검증한다.

평가 방법으로는 두 가지 전형적인 언어 모델 과제인 다음 단어 예측(next‑word prediction)과 마스크된 단어 예측(masked‑word prediction)을 적용했다. 다음 단어 예측에서는 모델이 현재까지 본 트리 구조를 바탕으로 다음에 올 트리 토큰을 예측하도록 하였으며, 마스크된 단어 예측에서는 임의로 가려진 토큰을 복원하도록 훈련시켰다. 결과는 정확도와 퍼플렉시티(perplexity) 지표에서 무작위 베이스라인보다 현저히 높은 성능을 보였으며, 특히 소수 인수의 재귀적 패턴(예: 2의 거듭제곱, 3의 거듭제곱 등)과 트리 깊이와 폭 사이의 상관관계를 어느 정도 포착했다는 점이 눈에 띈다.

하지만 모델이 완전한 문법을 학습했다고 보기에는 한계가 있다. 예를 들어, 높은 소인수(큰 소수)를 포함하는 숫자들의 트리 구조는 여전히 예측 오류가 잦으며, 트리 깊이가 급격히 증가하는 구간에서는 퍼플렉시티가 급등한다. 이는 현재 트랜스포머가 장기 의존성을 완전히 해결하지 못하고, 토큰 간의 거리와 복잡도가 증가함에 따라 학습 효율이 감소한다는 일반적인 한계를 그대로 보여준다.

이러한 결과는 두 가지 중요한 시사점을 제공한다. 첫째, 언어 모델은 인간이 만든 자연어뿐 아니라 완전한 수학적 규칙에 기반한 인공 데이터에서도 의미 있는 패턴을 학습할 수 있다. 이는 ‘학습 가능성’이 데이터의 경험적 특성에 국한되지 않고, 보다 근본적인 형식 체계에도 적용될 수 있음을 의미한다. 둘째, 현재 모델의 한계는 보다 효율적인 장기 의존성 처리 메커니즘이나, 트리 구조 자체를 직접 다루는 그래프 신경망(Graph Neural Network)과의 하이브리드 접근법을 통해 개선될 가능성을 시사한다.

향후 연구에서는 (1) 트리 구조를 토큰 시퀀스로 변환하는 다양한 인코딩 방식을 비교하고, (2) 트랜스포머의 어텐션 메커니즘이 트리의 계층적 정보를 어떻게 반영하는지 시각화 분석을 수행하며, (3) 더 큰 규모의 모델과 데이터(예: 10¹³ 토큰 이상)로 확장하여 학습 한계와 포화점을 탐색하는 것이 필요하다. 또한, 이러한 인공 산술 텍스트를 실제 수학적 추론이나 정리 증명에 적용함으로써, 언어 모델이 인간 수준의 수학적 이해에 도달할 수 있는지 여부를 평가하는 장기적인 목표도 제시된다.

🇺🇸 Read in English

📄 Content