심볼릭 회귀의 스케일링 법칙 탐구
초록
본 논문은 변환기 기반 심볼릭 회귀 모델을 다양한 규모로 학습시켜, 계산량( FLOPs )에 따른 검증 손실과 완전 해결 비율이 명확한 멱법칙을 따름을 보인다. 최적 배치 크기·학습률·토큰‑파라미터 비율이 모델 크기에 따라 어떻게 변하는지 규명하고, 토큰‑파라미터 비율 ≈15가 현재 계산 구간에서 가장 효율적임을 제시한다.
상세 분석
이 연구는 최근 언어 모델에서 발견된 스케일링 법칙을 심볼릭 회귀(SR) 분야에 적용하려는 최초 시도이다. 저자들은 두 단계의 합성 데이터 생성 파이프라인을 설계했는데, 먼저 변수와 상수만을 이용해 이진·단항 연산자를 재귀적으로 적용해 기본 식 집합 E를 만든 뒤, 각 식에 무작위 정수 상수를 삽입하고 가우시안 혼합 분포에서 샘플링한 64점 데이터셋을 결합한다. 이렇게 하면 식의 중복과 편향을 최소화하고, 동일 식에 대한 다양한 입력‑출력 쌍을 확보할 수 있다. 토큰화는 기존 연구와 마찬가지로 10진 부동소수점 표기법을 사용하되, mantissa와 exponent를 각각 임베딩 차원에 투영해 합산함으로써 셀‑단위 임베딩을 구현한다. 이는 최근 탭형 데이터에 특화된 파운데이션 모델의 설계와 일맥상통한다.
모델 아키텍처는 표준 인코더‑디코더 변환기를 기반으로 하면서, 인코더 레이어마다 행‑열 어텐션을 동시에 적용해 변수 간 및 데이터 포인트 간 상호작용을 효율적으로 포착한다. 디코더는 기존 시퀀스‑투‑시퀀스 구조를 그대로 사용하고, 교차 어텐션을 통해 업데이트된 셀 임베딩에 접근한다. 손실 함수는 예측 토큰과 정답 토큰 사이의 교차 엔트로피이며, 최적화에는 AdamCPR와 5 % 워밍업 후 코사인 스케줄링을 적용했다.
실험에서는 6.5 M‑93 M 파라미터 규모의 다섯 모델을 1 × 10¹⁷ ~ 1 × 10¹⁹ FLOPs 범위에서 훈련시켰다. 각 모델에 대해 배치 크기와 학습률을 그리드 탐색하고, 토큰‑파라미터 비율을 5‑80 사이에서 변형했다. 검증 손실이 최소인 설정을 기준으로, ‘Acc solved’(완전 일치 비율)와 ‘Acc R²>0.99’(높은 결정계수) 두 지표를 측정했다. 결과는 다음과 같다. 첫째, 두 지표 모두 계산량에 대해 멱법칙 형태로 성장했으며, 특히 Acc solved는 0.03에서 0.60까지 3 오더의 FLOPs 증가에 따라 상승했다. 추정된 스케일링 곡선을 외삽하면 3.8 × 10²¹ FLOPs에서 0.8 수준에 도달할 수 있음을 시사한다. 둘째, 최적 배치 크기와 학습률은 모델 규모와 함께 증가했으며, 이는 대형 언어 모델에서 관찰된 학습률 감소와는 반대되는 현상이다. 셋째, 토큰‑파라미터 비율은 약 15가 현재 구간에서 최적이며, 계산량이 커질수록 약간 상승하는 경향을 보였다. 이는 데이터 양이 모델 파라미터보다 다소 빠르게 스케일링해야 함을 의미한다.
한계점으로는 (1) 식의 변수 수를 최대 두 개, 상수를 정수로 제한했기 때문에 실제 과학·공학 문제에 바로 적용하기 어렵다. (2) 단일 시드 훈련으로 인한 결과 변동성을 완전히 배제하지 못했다. (3) 비교 대상인 기존 GP·다른 딥러닝 SR 방법과의 직접적인 성능 비교가 없으며, 계산량이 제한된 구간 밖에서의 외삽 정확성도 검증되지 않았다. 그럼에도 불구하고, SR에서도 규모가 성능을 예측 가능하게 만든다는 핵심 메시지는 향후 대규모 심볼릭 회귀 모델 설계에 중요한 지침이 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기