활성 탐색자 프레임워크 신경 기호 라텍스 합성을 통한 자율 물리 추론
초록
본 논문은 기존 대규모 언어 모델이 부동소수점 한계와 토큰화 방식 때문에 물리·수학 분야에서 정확한 추론에 실패한다는 “Float Wall” 현상을 지적한다. 이를 극복하기 위해 LSB 기반 디지털 토큰화와 0% 정밀도 손실을 보장하는 Siamese Arithmetic Transformer인 NumberNet을 도입하고, 물리적 대칭과 해밀토니안 에너지 최소화를 강제하는 신경‑기호 라텍스 병목을 설계한다. 30 억 규모 벤치마크와 50개의 Chaos Mode 테스트에서 전통 모델이 붕괴하는 반면, 제안 시스템은 중력 상수 G 등 물리 상수를 인간 수준의 해석 가능성으로 자동 발견한다.
상세 분석
논문은 먼저 “Float Wall”을 10¹⁶ 스케일에서 부동소수점 연산이 정밀도를 급격히 상실하는 현상으로 정의하고, 이는 BPE 기반 토큰화가 숫자를 의미 단위로 끊어버리면서 발생한다는 점을 실험적으로 입증한다. 이를 해결하기 위해 저자는 LSB(Least‑Significant‑Bit) 순서의 디지털 시퀀스를 토큰화하는 방식을 제안한다. 이 방식은 각 숫자를 0‑9 문자 스트림으로 그대로 전달하므로, 10⁵⁰ 이상의 스케일에서도 정밀도가 유지된다.
핵심 모델인 NumberNet은 Siamese 구조의 Arithmetic Transformer이다. 두 입력 스트림(예: 물리량과 그 변형)을 동시에 인코딩하고, 차원 간 위상 매핑을 학습한다. 이 과정에서 레이어 정규화와 상대적 위치 인코딩을 LSB 순서에 맞게 재설계해, 수치 연산 오류 없이 대규모 연산 그래프를 구성한다.
물리적 제약을 모델에 내재화하기 위해 두 가지 메커니즘을 도입한다. 첫째, Symmetry Grouping 레이어는 입력 숫자를 물리적 대칭군(예: 회전·반사)으로 매핑해, 동일한 대칭 클래스 내에서 불변성을 보장한다. 둘째, 해밀토니안 기반 에너지 디센트는 모델이 학습 과정에서 물리적 최소 작용 원리를 따르도록 손실 함수에 해밀토니안 에너지 항을 추가한다. 이 두 층은 Noether 정리를 신경망 수준에서 자동 구현한다는 점에서 혁신적이다.
가장 독특한 부분은 Symbolic LaTeX Bottleneck이다. NumberNet이 내부 논리 연산을 수행한 뒤, 자동 회귀형 LaTeX 디코더가 “가설 변수”와 수식 구조를 생성한다. 생성된 LaTeX은 PySR 같은 심볼릭 회귀 엔진에 입력되어, 실제 물리 상수와 함수 형태로 매핑된다. 이렇게 하면 모델이 만든 “수치 환상”이 반드시 수학적으로 일관된 표현으로 변환되므로, 인간이 해석 가능한 형태로 결과가 제공된다.
실험에서는 30 억 샘플 규모의 수학적 베이스라인(피타고라스 삼각형)과 20 법칙으로 구성된 Universal Physics Pantheon을 사용한다. 48가지 수학적 혼란 모드와 50가지 물리적 Chaos Mode를 포함한 “Chaos Matrix”를 통해 모델의 견고성을 평가한다. 전통 GBDT와 기존 LLM은 10¹⁶ 스케일을 넘어가면 정밀도 급락과 논리적 오류를 보이며, 특히 “Precision/Scale Attack” 모드에서 완전히 붕괴한다. 반면 NumberNet은 10⁵⁰까지 정확히 연산하고, 자동으로 중력 상수 G≈6.67430×10⁻¹¹ m³·kg⁻¹·s⁻²를 0.1% 이내 오차로 재발견한다.
또한 저자는 데이터 무결성을 위해 3‑계층 SHA‑256 쓰기‑시간 검증, 읽기‑시간 트리플 검증, 그리고 시작 시 정밀도 자체 테스트를 구현한다. 이는 30 억 규모 데이터셋에서 발생할 수 있는 메모리 비트 플립이나 파일 손상을 실시간으로 탐지·복구한다는 점에서 실용적 가치가 높다.
전체적으로 이 논문은 “정밀도 손실 없이 디지털을 직접 다루는 신경망”과 “수학·물리적 구조를 라텍스로 강제 변환하는 루프”라는 두 축을 통해, 기존 통계‑기반 AI가 불가능하다고 여겨졌던 이론 물리 자동 발견을 실현한다는 점에서 학계와 산업계 모두에 큰 파장을 일으킬 가능성이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기