자동 PDE 비종속 멀티에이전트 파이프라인 AutoNumerics
AutoNumerics는 자연어로 기술된 PDE 문제를 입력으로 받아, 여러 LLM 기반 에이전트가 협업해 전통적인 수치 해법을 자동 설계·구현·디버깅·검증하는 시스템이다. 거친‑세밀 실행 전략과 잔차 기반 자체 검증을 도입해 고해상도 시뮬레이션 전 논리 오류를 저해상도에서 빠르게 잡아내며, 선택된 스킴이 PDE의 구조적 특성(경계조건, 차원, 유형)과 일치하도록 설계한다. 24개의 대표 PDE에 대해 신경망 기반 베이스라인 및 CodePDE보…
저자: Ji, a Du, Youran Sun
본 논문은 과학·공학 분야에서 핵심적인 역할을 하는 편미분방정식(PDE)의 수치 해법 설계를 완전 자동화하는 시스템, AutoNumerics를 제안한다. 전통적인 수치 해법은 전문가의 깊은 수학적 지식과 수동 튜닝이 필요하지만, 최근 물리‑인포메이션 신경망(PINN)이나 연산자 학습(FNO 등) 기반 접근법은 계산 비용이 높고 해석 가능성이 떨어진다. 이러한 문제점을 해결하고자 저자들은 대형 언어 모델(LLM)을 “수치 설계자”로 활용해, 자연어로 기술된 PDE 문제를 입력받아 전통적인 수치 스킴을 자동으로 설계·구현·디버깅·검증하는 멀티에이전트 파이프라인을 구축하였다.
시스템은 크게 7개의 전문 에이전트와 중앙 디스패처로 구성된다. Formulator Agent는 입력 텍스트를 파싱해 방정식, 경계·초기조건, 물리 파라미터 등을 구조화된 사양으로 변환한다. Planner Agent는 이 사양을 바탕으로 유한차분, 유한요소, 스펙트럴, 유한볼륨 등 다양한 이산화 기법과 명시·암시적 시간 전진 방식을 조합한 후보 플랜을 생성한다. 이때 기본적인 수치 안정성(예: CFL 조건)과 일관성 규칙을 사전 검증해 불안정하거나 비물리적인 플랜을 차단한다. Feature Agent는 문제와 플랜의 차원, 비선형성, 강성, 경계 종류 등 수치적 특성을 추출하고, Selector Agent는 사전 학습된 점수 모델로 후보를 랭킹한다. 상위 k(논문에서는 5) 플랜만 Coder Agent에게 전달되어 실제 파이썬/포트란 코드가 자동 생성된다.
코드가 생성된 뒤에는 두 단계의 실행 전략이 적용된다. 첫 번째는 저해상도 격자에서 논리 오류(구문 오류, 차원 불일치, 메모리 초과 등)를 빠르게 탐지한다. Critic Agent는 발견된 오류를 자동 수정하고, 재시도 횟수가 제한(M) 초과하면 Fresh Restart 메커니즘을 통해 전체 플랜을 새로 생성한다. 논리 검증을 통과하면 고해상도 격자로 전환해 수치 안정성(시간 스텝 크기, 스키마 선택 등)을 검증한다. 대규모 시뮬레이션에서는 History Decimation을 통해 솔루션 스냅샷을 간격 저장함으로써 메모리 사용을 최소화한다.
검증 단계에서는 해의 정확성을 세 가지 지표로 평가한다. (1) 해석적 해가 존재하면 상대 L2 오차(e_L2)를, (2) 해석적 해가 없을 경우 PDE 연산자에 대한 잔차 norm(e_res)를, (3) 보존 법칙 등 암시적 관계가 있을 경우 해당 잔차(e_impl)를 계산한다. 모든 생성된 솔버는 잔차를 반환하도록 강제되며, Reasoning Agent가 최종 선택된 스킴에 대한 이론적 분석(안정성, 수렴 차수, 복잡도)까지 제공한다.
실험은 두 개의 벤치마크에서 수행되었다. 첫 번째는 기존 CodePDE 논문에서 제시한 5개의 대표 PDE(1D Advection, 1D Burgers, 2D Reaction‑Diffusion, 2D Compressible Navier‑Stokes, 2D Darcy Flow)이며, 두 번째는 저자들이 자체 구축한 200개의 다양한 PDE 중 24개를 선정한 종합 벤치마크이다. 각 문제에 대해 Planner는 10개의 후보 플랜을 생성하고, 상위 5개를 구현한다. 코드는 최대 2·4·6번의 재시도(코드 생성, 저해상도 실행, 고해상도 실행)와 120초의 실행 제한을 두었다.
결과는 nRMSE 기준으로 AutoNumerics가 모든 5개의 CodePDE 문제에서 기존 신경망 기반 베이스라인(UNet, FNO, PINN, PDEformer 등)과 CodePDE 자체보다 최소 1~2자리 수치적 우위를 보였으며, 전체 평균 nRMSE는 9.0×10⁻⁹으로 CodePDE(5.08×10⁻³)보다 약 6 orders of magnitude 낮았다. 24개의 종합 벤치마크 중 19개는 해석적 해가 존재했으며, 그 중 11개는 10⁻⁶ 이하의 L2 오차를 달성했다. 특히 Poisson(5.41×10⁻¹⁶)과 2D Helmholtz(3.50×10⁻¹⁶)에서는 기계 정밀도 수준까지 도달했다. 반면 5차원 Helmholtz와 4차 고차 미분 PDE에서는 정확도가 급격히 떨어져(≈10⁰) 고차원·고차 미분에 대한 한계가 드러났다.
플랜 선택 분석 결과, Planner는 PDE의 구조적 특성에 맞는 스킴을 일관되게 선택했다. 예를 들어 주기적 경계에는 Fourier 스펙트럴, 디리클레 경계의 파라볼릭 문제에는 유한차분 또는 유한요소, 디리클레 경계의 타원형 문제에는 Chebyshev 스펙트럴을 자동으로 선택했다. 이는 기존 LLM 기반 코드 생성이 종종 라이브러리 API에 종속되는 것과 달리, AutoNumerics가 수학적 원칙에 기반한 설계를 수행함을 의미한다.
논문의 주요 기여는 다음과 같다. (1) 자연어 입력만으로 전통적인 수치 PDE 솔버를 자동 설계·구현·디버깅·검증하는 멀티에이전트 파이프라인 제시, (2) 플랜 단계에서 수치 안정성·일관성을 사전 검증하는 메커니즘 도입, (3) 거친‑세밀 실행 전략을 통한 디버깅 비용 최소화, (4) 잔차 기반 자체 검증으로 해석적 해가 없는 문제에서도 정확도 평가, (5) 200개의 다양한 PDE를 포괄하는 벤치마크 구축 및 24개 대표 문제에 대한 체계적 실험.
한계점으로는 현재 단일 LLM(GPT‑4.1)에 의존하고 있어 모델 오류가 전체 파이프라인에 영향을 미칠 수 있다는 점, 생성된 코드에 대한 형식적 수렴·안정성 증명이 없으며, 비정형 도메인(복합 지오메트리, 비구조 격자)이나 고차원·고차 미분 PDE에 대한 성능이 아직 부족하다는 점을 들었다. 향후 연구에서는 다중 LLM 앙상블, 형식 검증 도구와의 연계, 비정형 메쉬 지원, 고차원·고차 미분에 특화된 플랜 생성 등을 통해 범용성을 확대할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기