테스트 시점 연산으로 신경심볼릭 회귀의 복제 편향을 극복하라
초록
본 논문은 Transformer 기반 신경심볼릭 회귀(NSR)가 토큰을 순차적으로 생성할 때 수치적 일관성을 고려하지 못하고, 학습 데이터에 존재하는 식을 그대로 복제하는 ‘복제 편향(reproduction bias)’에 빠진다는 점을 이론·실험적으로 밝힌다. 이를 완화하기 위해 빔 탐색, MCTS, 그리고 서브트리 검증 피드백을 활용한 테스트‑타임 전략을 비교하고, 특히 서브트리 검증(NSR‑gvs) 방식이 새로운 식을 생성하도록 유도함을 확인한다.
상세 분석
논문은 먼저 NSR의 핵심 메커니즘을 “토큰‑바이‑토큰 자동회귀”로 정의하고, 이 방식이 수치 데이터와의 동시 검증을 요구하는 수학식 생성에 부적합함을 이론적으로 증명한다. 저자들은 회로 복잡도 이론을 차용해, 로그‑정밀도 제한을 갖는 Transformer가 마지막 토큰을 선택하는 ‘Last‑Token‑Prediction’ 문제를 해결할 수 없음을 보인다(TC⁰ ⊊ NC¹ 가정 하에). 이는 Transformer가 현재까지 생성된 토큰들의 의미를 충분히 연산하지 못하고, 단순히 확률적 패턴 매칭에 의존한다는 의미이다.
다음으로 실험적 분석을 통해 “복제 편향”을 정량화한다. NeSymReS와 같은 기존 NSR 모델에 대해 대규모 합성 데이터셋을 사용했을 때, 생성된 식의 70 % 이상이 학습 데이터에 존재했던 식과 일치한다는 결과가 도출된다. 이는 표현 공간이 훈련 데이터에 크게 제한됨을 시사한다. 특히 변수 수가 늘어날수록 모델이 새로운 조합을 만들어내는 능력이 급격히 감소한다.
복제 편향을 완화하기 위한 테스트‑타임 전략으로 세 가지를 제안한다. (1) 빔 사이즈를 크게 늘려 탐색 폭을 확대하는 단순 빔 디코딩, (2) Monte‑Carlo Tree Search(MCTS)를 적용해 탐색 트리를 구조화하는 방법, (3) 서브트리 수준에서 수치 검증 피드백을 제공하는 NSR‑gvs이다. 실험 결과, NSR‑gvs는 서브트리마다 실제 데이터와의 오차를 계산해 가장 유망한 후보를 선택하도록 모델에 추가 정보를 주입함으로써, 복제 편향을 현저히 감소시키고 새로운 식을 생성하는 비율을 2배 이상 끌어올렸다. 다만, 서브트리 검증 과정에서 추가 연산 비용이 발생하고, 경우에 따라 수치 정확도가 오히려 떨어지는 현상도 관찰되었다. 이는 “새로운 식을 만들었다”고 해서 반드시 원본 데이터에 대한 적합도가 향상되는 것은 아니라는 점을 보여준다.
전체적으로 논문은 NSR이 현재 Transformer 기반 토큰 생성 방식에 구조적 한계가 있음을 밝히고, 테스트‑타임에 외부 정보를 주입하는 것이 복제 편향을 완화하는 실용적인 해결책이 될 수 있음을 제시한다. 향후 연구는 (i) 토큰 수준이 아닌 구조‑단위(예: 서브트리, 연산 블록)에서의 생성 모델 설계, (ii) 학습 단계에서 수치 검증을 통합한 혼합 학습 프레임워크, (iii) 대규모 실제 과학 데이터에 대한 일반화 평가 등을 통해 NSR의 실용성을 더욱 높이는 방향으로 진행될 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기