고정 스케일 양자화 추론에서 NIM 마스터링의 구조적 장벽과 다중 프레임·다중 헤드 해결책
초록
본 논문은 고정‑스케일·고정‑지연 양자화 추론(FSQI) 환경에서 NIM과 같은 공정 게임을 해결하려는 신경망의 표현 한계를 AC⁰ 회로 이론으로 규명한다. 단일 프레임·단일 헤드 구조는 전역 님‑합(패리티)을 계산하지 못해 최적 플레이가 불가능함을 증명하고, 두 가지 구조적 우회책을 제시한다. 첫째, 두 프레임을 이용해 이전 상태와 현재 상태의 차이(Δ)를 AC⁰ 내에서 계산해 복원 규칙을 구현한다. 둘째, 다중 롤아웃 헤드를 도입해 각 헤드가 님‑합의 한 비트를 회복하도록 설계한다. 실험은 이러한 이론을 뒷받침하며, 다중 프레임·다중 헤드 모델이 거의 완벽한 복원 및 승패 분류를 달성함을 보여준다.
상세 분석
논문은 먼저 고정‑스케일 양자화 추론 모델을 정의한다. 여기서는 가중치와 임계값이 입력 길이에 의존하지 않는 유한한 격자 Q_{W,D}에 제한되고, 네트워크 깊이는 상수이며, 전체 파라미터 수는 다항식 규모이다. 이러한 제약 하에서 각 뉴런은 제한된 수의 입력 리터럴만으로 임계값을 초과할 수 있으므로, 각 뉴런은 상수 폭의 DNF 형태로 전개될 수 있다. 이를 이용해 전체 네트워크는 상수 깊이·다항식 크기의 AC⁰ 회로로 시뮬레이션 가능함을 정리 2.4에서 증명한다.
이제 NIM 문제를 AC⁰ 관점에서 바라본다. NIM의 승패는 모든 힙 크기의 비트별 XOR, 즉 전역 님‑합이 0인지 여부에 달려 있다. PARITY 함수는 AC⁰에 포함되지 않으므로, 정리 5.2는 “단일 프레임·단일 헤드” 구조가 전역 님‑합을 정확히 계산할 수 없음을 보인다. 이는 임의의 공정 게임에서 Grundy 값들을 로컬하게 구하더라도, 그 값을 전역적으로 합산해 최적 행동을 선택하는 단계에서 근본적인 표현 장벽이 존재함을 의미한다.
롤아웃 인터페이스를 통해 약한 평가자가 제공하는 정보도 제한된다. 논문은 “단일 롤아웃 헤드”가 어떤 입력에 대해서도 님‑합의 고정된 선형 함수 하나만을 노출한다는 명제 5.10·5.14를 제시한다. 따라서 롤아웃 예산을 늘려도 추가적인 비트 정보를 얻을 수 없으며, 이는 학습이 전역 패리티를 획득하지 못하는 원인이다.
두 가지 구조적 우회책이 제시된다. 첫 번째는 “두 프레임” 접근법이다. 두 연속 상태 P_t‑1, P_t 를 동시에 입력받아 그 차이 Δ(P_{t‑1},P_t) 를 계산한다. Δ는 각 힙의 비트 차이만을 포함하므로, 이는 O(1) 비트 규모의 로컬 패리티이며 AC⁰ 내에서 쉽게 구할 수 있다(정리 5.4). 이를 이용해 복원 규칙을 설계하면, 현재 님‑합이 0이 되도록 움직임을 선택할 수 있어 강력한 복원 마스터리를 달성한다(정리 5.5·5.13).
두 번째는 “다중 헤드 롤아웃”이다. B개의 독립적인 롤아웃 헤드를 두어 각 헤드가 님‑합의 서로 다른 비트를 회복하도록 학습한다. 명제 5.9는 깊이 증폭(depth amplification)을 통해 각 헤드가 고정된 비트를 정확히 추출할 수 있음을 보이며, 전체적으로 B비트를 모두 복원하면 전역 님‑합을 완전히 알 수 있다.
실험에서는 20‑힙·4‑비트 NIM을 대상으로, 10⁶개의 감독 복원 예시를 사용했다. 단일 프레임·단일 헤드 모델은 거의 무작위 수준의 성능을 보였지만, 두 프레임 모델은 복원 정확도가 99% 이상에 도달했다. 또한, 다중 헤드 FSM‑제어 샤웃아웃을 적용한 모델은 승패 위치 분류에서 100% 정확도를 기록했다. 이러한 결과는 이론적 장벽이 실제 구현에서도 뚜렷이 나타남을 확인한다.
마지막으로 논문은 AC⁰ 추상화가 실제 고정‑스케일 양자화 하드웨어(예: INT8)와 어느 정도 일치한다는 점을 논의한다. 비정규화된 정규화 레이어(LayerNorm, Softmax)는 논리 연산과는 별개로 동작하지만, 실험에서 이 레이어가 있더라도 단일 프레임 모델은 여전히 한 비트만 접근 가능함을 보여준다. 따라서 구조적 사전지식(히스토리, 다중 채널)이 없이는 FSQI/AC⁰ regime에서 공정 게임을 마스터하기 어렵다는 결론에 도달한다.
댓글 및 학술 토론
Loading comments...
의견 남기기