동적 연산 할당을 이해하는 재귀 트랜스포머
초록
본 논문은 토큰 수준의 난이도가 명시적으로 제어되는 알고리즘·합성 언어 과제를 도입하고, 가변 깊이 재귀 트랜스포머 프레임워크 ANIRA를 제안한다. ANIRA‑E와 ANIRA‑O 두 가지 결정 메커니즘을 통해 토큰별 연산량을 조절하고, 복잡도와의 정렬, 일반화, 결정 시점 등을 체계적으로 분석한다. 실험 결과, 난이도와 연산 할당이 감독 없이도 정렬될 수 있지만, 이는 알고리즘적 일반화와는 별개이며, 초기 결정은 정적 구조적 단서에, 온라인 halting은 실제 실행 상태에 의존한다는 점을 밝혀냈다.
상세 분석
이 연구는 토큰‑레벨 적응 연산이라는 개념을 정량적으로 검증하기 위해, 난이도가 파라미터화된 알고리즘·합성 언어 작업을 설계했다. 이러한 작업은 각 토큰이 요구하는 연산량(예: 재귀 깊이, 순환 단계 수)을 명확히 정의함으로써, 모델이 실제 복잡도에 맞춰 연산을 할당하는지를 직접 측정할 수 있게 한다. ANIRA 프레임워크는 Prelude‑Recurrent‑Coda 구조를 채택해, 입력·출력 인터페이스는 고정하고 연산 가변성을 순환 코어에만 국한한다. 두 가지 변형, ANIRA‑E(Prelude 기반 조기 깊이 예측)와 ANIRA‑O(각 순환 단계마다 온라인 halting) 모두 토큰별 exit depth를 확률적으로 예측하고, Gumbel‑Softmax 혹은 역 CDF 샘플링을 통해 학습 시 이산 선택을 미분 가능하게 만든다.
연산 정규화는 KL‑다이버전스를 이용해 사전 깊이 분포(p(d)∝b⁻ᵈ)와 맞추며, 기대 깊이와 엔트로피를 동시에 제어한다. 이는 모델이 무작위로 깊이를 선택하거나 모든 토큰에 최대 깊이를 할당하는 것을 방지한다. 또한, 토큰이 일찍 halting되면 해당 토큰의 키·밸류는 이후 단계에서 고정된 형태로 캐시되어, 다른 토큰의 어텐션에 계속 활용된다. 이 “allocation‑aware KV 캐시” 설계는 실제 추론 시 메모리와 연산량을 평균 깊이( d̄ )에 비례하도록 감소시킨다.
실험에서는 (1) 복잡도 정렬: 난이도가 높은 토큰에 더 많은 순환 단계가 할당되는지, (2) 일반화: 훈련 시 보지 못한 입력 길이·구조에 대해 연산 할당이 유지되는지, (3) 결정 시점: 조기‑예측과 온라인‑halting이 각각 어떤 특징을 보이는지를 평가했다. 결과는 다음과 같다. 첫째, 두 변형 모두 감독 없이도 난이도와 연산 할당이 양의 상관관계를 보였으며, 특히 ANIRA‑O는 단계별 상태 정보를 활용해 더 정밀한 할당을 수행했다. 둘째, 높은 깊이 할당이 관찰되었음에도 불구하고, 모델은 훈련되지 않은 더 긴 시퀀스에 대해 정확히 스케일링하지 못했으며, 이는 연산 할당이 복잡도 정렬과 알고리즘적 일반화가 별개임을 시사한다. 셋째, ANIRA‑E는 Prelude 단계의 정적 구조(예: 토큰 위치, 문법적 마크)에 크게 의존해 깊이를 결정하는 반면, ANIRA‑O는 실제 순환 단계에서의 상태 변화(예: 카운터, 스택 깊이)와 강하게 연관된 halting 패턴을 보였다. 마지막으로 학습 과정은 두 단계로 구분되었다. 초기에는 모델이 전체 연산을 많이 사용하면서 복잡한 패턴을 학습하고, 이후 정규화 압력에 의해 점진적으로 연산을 축소한다. 이는 적응 연산 정책이 “학습 → 압축” 흐름을 따름을 보여준다.
이러한 분석은 토큰‑레벨 적응 연산 연구에 두 가지 중요한 교훈을 제공한다. 첫째, 복잡도‑정렬된 연산 할당은 별도의 난이도 라벨 없이도 자연스럽게 발생할 수 있지만, 이를 일반화 성능과 동일시해서는 안 된다. 둘째, 결정 메커니즘의 설계—조기‑예측 vs. 온라인‑halting—가 모델이 어떤 정보를 활용해 연산을 할당하는지를 근본적으로 좌우한다. 따라서 향후 연구는 더 풍부한 상태 정보를 제공하거나, 일반화‑친화적인 정규화 목표를 설계함으로써, 연산 할당과 알고리즘적 능력을 동시에 향상시킬 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기