SymPlex: 트리 구조 인식 트랜스포머로 푸는 기호 PDE 해법
초록
SymPlex는 PDE와 경계조건만을 이용해 해의 기호 표현을 자동으로 탐색하는 강화학습 프레임워크이다. 핵심인 SymFormer는 트리‑상대 자기‑주의와 문법‑제한 자동회귀 디코딩을 결합해 표현 트리를 직접 생성하며, 기존 시퀀스 기반 모델의 한계를 극복한다. 실험을 통해 비연속·파라메트릭 해를 정확히 복원함으로써 수치·신경망 방법보다 해석적 정확도와 저장 효율성을 입증한다.
상세 분석
본 논문은 PDE 해를 기호적 형태로 직접 찾는 문제를 “트리 구조 의사결정”으로 공식화하고, 이를 해결하기 위한 새로운 트랜스포머 기반 모델인 SymFormer를 제안한다. 기존의 RNN이나 순차 트랜스포머는 토큰의 선형 순서만을 고려해 연산자와 피연산자 사이의 비인접 관계를 효과적으로 포착하지 못한다. SymFormer는 각 토큰 쌍에 대해 부모‑자식, 형제, 조상 등 6가지 관계를 정의하고, 관계별 학습 가능한 임베딩 Rᵣ을 어텐션 스코어에 추가함으로써 트리‑상대 자기‑주의를 구현한다. 이 메커니즘은 연산자가 자신의 피연산자를 직접 주시하고, 피연산자가 연산자와 정보를 교환하도록 하여, 깊은 중첩 구조에서도 의미론적 흐름을 유지한다.
또한, 문법‑제한 자동회귀 디코딩을 도입해 연산자 아리티(arity)와 현재 남은 깊이 예산을 실시간으로 검증한다. 토큰 선택 시 유효한 후보 집합을 동적으로 축소함으로써 구문 오류를 사전에 차단하고, 탐색 공간을 크게 축소한다. 이와 더불어 전통적인 sinusoidal 위치 인코딩을 프리픽스 순회 위치와 결합해 “트래버설‑인식” 위치 정보를 제공, 동일한 구조적 역할을 가진 노드라도 다른 컨텍스트에서 구별될 수 있게 한다.
학습 측면에서는 정답 표현이 존재하지 않으므로 강화학습(RL)으로 전환한다. PDE와 경계조건을 만족하는 정도를 잔차(norm of differential operator)와 경계 위반 정도를 결합한 보상 함수로 정의하고, 정책 그래디언트(예: PPO)로 최적화한다. 탐색 효율을 높이기 위해 (i) 다양성을 보장하는 top‑k 메모리, (ii) 고보상 표현을 모방해 안정성을 높이는 imitation learning, (iii) 표현 복잡도가 증가함에 따라 단계별 난이도를 조절하는 curriculum learning을 도입한다. 이러한 설계는 “완전 탐색 후 보상”이라는 희소하고 지연된 신호 문제를 완화한다.
실험에서는 1차·2차 비선형 PDE, 해밀턴‑자코비 방정식 등에서 비연속 해와 파라메트릭 해를 정확히 복원한다. 특히, 파라메터 κ를 변수로 두고 해를 u(x,t;κ)=… 형태로 출력함으로써, 파라메터 의존성을 명시적으로 드러낸다. 수치적 방법(FDM/FVM/FEM)과 PINN 기반 신경망은 근사 오차와 메모리 사용량이 크게 늘어나는 반면, SymPlex는 식 자체가 압축된 형태이므로 저장 비용이 최소화된다.
한계점으로는 현재 실험이 비교적 낮은 차원·단순 연산자 집합에 국한되어 있으며, 복잡한 경계조건(예: 비선형 Neumann)이나 다중 물리 현상에 대한 확장성이 검증되지 않았다. 또한, 강화학습 과정에서 보상 설계가 문제마다 민감하게 작용할 수 있어, 자동화된 보상 튜닝 메커니즘이 필요하다.
전반적으로, 트리‑구조 인식을 명시적으로 모델링하고, 문법 제약을 강화학습과 결합한 접근은 기호 PDE 해법 분야에 새로운 패러다임을 제시한다. 향후 더 풍부한 연산자 집합, 고차원 파라메터 공간, 그리고 멀티‑스케일 PDE에 대한 적용이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기