LLM 기반 SINDy를 통한 비선형 동역학 식 자동 발견
초록
본 논문은 대규모 언어 모델(LLM)을 SINDy 파이프라인에 결합해, 데이터 기반 오류 피드백과 도메인 제약을 동시에 활용하는 폐쇄‑루프 시스템 식 식별 방법을 제안한다. 초기 SINDy 모델을 기반으로 LLM에게 현재 모델·오차·물리적 제약을 요약한 프롬프트를 제공하고, LLM이 제안한 새로운 식 구조를 자동 검증·희소 회귀·시뮬레이션 평가에 넣어 반복적으로 개선한다. 63개의 ODEBench 데이터와 원자력 보일러 모델에 적용한 결과, 기존 고정 라이브러리 SINDy 대비 구조적 복원율과 테스트 RMSE가 모두 향상되었음을 보인다.
상세 분석
이 연구는 기존 SINDy가 “라이브러리 설계 → 희소 회귀 → 모델 선택”이라는 일방향 흐름에 머무는 한계를 인식하고, LLM을 인간 전문가의 직관적 제안 역할로 도입한다는 점에서 혁신적이다. 먼저, 다변량 궤적 데이터를 이용해 각 상태 변수의 범위, 표준편차, 진동·포화 여부 등 간단한 통계와 정성적 행동 특성을 추출한다. 이러한 메타데이터는 LLM 프롬프트에 삽입돼, “이 시스템은 진동형이며 비선형 포화가 관찰된다”와 같은 도메인 힌트를 제공한다.
LLM은 제한된 심볼릭 문법(예: 선형 계수와 사전 정의된 함수 집합) 안에서 다수의 후보 식 템플릿을 반환한다. 반환된 템플릿은 (1) 구문·문법 검증, (2) 희소성 및 중복 제한, (3) 선형 계수 형태 유지 여부를 자동 필터링한다. 통과한 후보는 현재 훈련 구간에 대해 선형 회귀(희소 회귀)로 계수를 추정하고, 별도 테스트 구간에서 수치 적분을 통해 전방 시뮬레이션 오류(NRMSE)를 측정한다. 시뮬레이션이 발산하거나 시간 제한을 초과하면 강력한 페널티를 부여해 후보를 폐기한다.
후보들의 최종 평가는 다목적 스코어 J = α·NRMSE + β·복잡도 + γ·구조적 페널티 로 정의된다. 여기서 복잡도는 표현 트리 노드 수로 정량화하고, 구조적 페널티는 사전 정의된 함수 패밀리와의 불일치를 가중한다. 이 스코어는 정확도와 해석 가능성 사이의 트레이드오프를 명시적으로 반영한다.
반복 루프는 최대 10회 혹은 NRMSE < 0.1 달성 시 조기 종료한다. 각 반복에서 가장 큰 오류를 보이는 상태 변수를 “오류 포커스”로 지정해 LLM에게 해당 변수에 대한 개선을 집중하도록 유도한다. 오류 감소가 일정 구간 동안 정체될 경우, LLM 샘플링 다양성을 높여 탐색 폭을 확대한다.
실험에서는 ODEBench의 63개 시스템(1‑4 차원, 혼돈·포식‑피식·진동·반응 등)과 March‑Leuba 원자력 보일러 모델에 적용했다. 동일한 초기 라이브러리를 사용한 고전적 SINDy와 비교했을 때, LLM‑보조 SINDy는 평균 NRMSE를 약 30 % 감소시키고, 구조적 유사도(함수 형태·결합·정성적 행동)에서 20 % 이상 향상되었다. 특히 복잡한 비선형 결합이나 로그·지수·분수 형태가 필요한 시스템에서 LLM이 새로운 함수 패밀리를 제안함으로써 기존 라이브러리 한계를 극복한 것이 눈에 띈다.
이 접근법은 (1) LLM이 제공하는 인간‑수준의 직관을 데이터‑구동 오류 피드백과 결합, (2) 심볼릭 검증·희소 회귀·시뮬레이션 평가라는 엄격한 자동화 파이프라인으로 후보를 선별, (3) 다목적 스코어를 통해 정확도와 해석 가능성을 동시에 최적화한다는 점에서 기존 딥러닝 기반 블랙박스 모델이나 고정 라이브러리 SINDy와 차별화된다. 또한, LLM이 제안한 식은 선형 계수 형태를 유지하므로 기존 SINDy와 동일한 희소 회귀 도구를 그대로 활용할 수 있어 구현 복잡도가 크게 증가하지 않는다.
향후 연구에서는 (i) 노이즈가 섞인 실험 데이터에 대한 강인성 평가, (ii) LLM 프롬프트 최적화 및 메타‑학습을 통한 도메인‑특화 사전 지식 주입, (iii) 다중 모델 앙상블 및 불확실성 정량화와의 연계 등을 통해 실용성을 더욱 높일 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기