MDAgent2 분자동역학을 위한 대규모 언어 모델 기반 코드 생성 및 지식 Q&A 시스템
초록
MDAgent2는 분자동역학(MD) 분야에 특화된 두 개의 LLM(MD‑Instruct, MD‑Code)을 구축하고, 코드 자동 생성·실행·피드백 루프를 포함한 멀티‑에이전트 런타임을 제공한다. 자체 제작한 MD‑Knowledge, MD‑InstructQA, MD‑CodeGen 데이터셋을 활용해 연속 사전학습(CPT), 지도 미세조정(SFT), 강화학습(RL) 3단계 학습 파이프라인을 적용했으며, 실행 결과를 보상으로 사용하는 MD‑GRPO 방식을 통해 코드 실행 성공률을 크게 향상시켰다.
상세 분석
본 논문은 분자동역학 시뮬레이션, 특히 LAMMPS 스크립트 작성을 자동화하기 위한 종합적인 프레임워크를 제시한다. 첫 번째 핵심 기여는 도메인‑특화 데이터 파이프라인이다. 저자들은 논문·교과서·기술 매뉴얼 등에서 MD‑관련 텍스트를 수집하고, 중복 제거·노이즈 필터링·형식 정규화 과정을 거쳐 고품질 코퍼스를 구축했다. 이를 바탕으로 세 가지 데이터셋을 만든다. MD‑Knowledge는 대규모 비지도 텍스트로 연속 사전학습(CPT)에 사용돼 모델이 MD 용어와 물리적 개념을 내재하도록 한다. MD‑InstructQA는 전문가가 만든 질문‑답변 쌍으로, SFT 단계에서 모델이 자연어 질의에 정확히 응답하도록 정렬한다. MD‑CodeGen은 “시뮬레이션 목표 → LAMMPS 코드” 형태의 프롬프트‑코드 쌍을 제공해 코드 생성 능력을 직접 학습한다.
두 번째 기여는 3단계 포스트‑트레이닝 전략이다. CPT 단계에서는 Qwen‑3 시리즈(8B) 기반 모델에 MD‑Knowledge를 추가 학습시켜 도메인 어휘와 구조적 패턴을 습득한다. 이어지는 SFT 단계에서는 MD‑InstructQA를 이용해 질문‑응답 형식에 맞는 출력과, 코드 생성 시 필요한 정확한 문법을 학습한다. 마지막 RL 단계에서는 MD‑GRPO라는 변형된 정책 최적화 기법을 도입한다. 여기서는 생성된 LAMMPS 스크립트를 실제 LAMMPS 엔진에 전달해 실행하고, 성공 여부·물리적 일관성·시뮬레이션 결과(예: 에너지 보존, 온도 분포 등)를 정량적 보상으로 변환한다. 특히 “저보상 궤적 재활용” 메커니즘을 통해 실패한 샘플을 다시 학습에 활용, 탐색 효율을 높이고 과적합을 방지한다.
세 번째 기여는 멀티‑에이전트 런타임(MDAgent2‑RUNTIME)이다. 이 시스템은 (1) 사용자 자연어 요청 → 코드 생성, (2) 자동 실행 및 로그 수집, (3) 실행 결과 기반 피드백 제공, (4) 필요 시 코드 수정·재생성을 순환하는 파이프라인을 구현한다. 각 단계는 별도 에이전트(프롬프트 엔진, 코드 실행기, 평가기, 수정기)로 모듈화돼 확장성이 높으며, LAMMPS‑전용 파서와 검증 도구가 내장돼 문법 오류를 사전에 차단한다.
평가 측면에서는 MD‑EvalBench이라는 새로운 벤치마크를 제안한다. 이 벤치마크는 (a) MD‑KnowledgeEval(이론·개념), (b) LAMMPS‑SyntaxEval(명령·구문 이해), (c) LAMMPS‑CodeGenEval(코드 생성·실행) 세 부분으로 구성돼, 각각 336·333·다수의 질문·과제 샘플을 포함한다. 성능 지표는 QA 정확도, Execution‑Success@k, 인간 평가 점수(Code‑HumanScore) 등을 사용한다. 실험 결과, MD‑Instruct‑8B는 Qwen‑3‑8B 대비 평균 4.17~6.61 포인트 상승한 QA 점수를 기록했으며, MD‑Code‑8B는 RUNTIME 루프 적용 시 Execution‑Success@3을 14.23 %에서 37.95 %로 크게 끌어올렸다. 이는 도메인‑특화 사전학습과 실행‑피드백 기반 RL이 코드 실행 가능성을 크게 개선함을 입증한다. 또한, 대규모 폐쇄형 모델(Qwen‑3‑Max)보다 작은 파라미터(8B) 모델이 경쟁력 있는 성능을 보이며, 경량화된 모델을 현장에 배포하기에 충분함을 시사한다.
전반적으로 본 연구는 (1) 도메인 데이터 구축 방법론, (2) 연속 사전학습‑지도‑강화학습 3단계 학습 흐름, (3) 실행 기반 피드백 루프를 갖춘 멀티‑에이전트 시스템, (4) MD 전용 평가 벤치마크라는 네 축을 통해 LLM을 과학·공학 시뮬레이션에 적용하는 실용적 로드맵을 제공한다. 특히, 코드 생성 후 자동 실행·평가·수정을 반복하는 폐쇄형 학습·추론 사이클은 기존 텍스트‑투‑코드 연구에서 드물게 구현된 점으로, 향후 다른 물리 시뮬레이션(예: CFD, 전자구조 계산)에도 확장 가능한 프레임워크로 활용될 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기