스웜폼 멀티모달 대형언어모델 기반 CFD 자동화

스웜폼 멀티모달 대형언어모델 기반 CFD 자동화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

스웜폼은 OpenFOAM 워크플로우를 자동화하기 위해 다중 에이전트와 멀티모달 대형언어모델(LLM)을 결합한 시스템이다. 관찰자 에이전트가 텍스트와 이미지 입력을 동시에 파싱하고, 설계·입력·실행·검토·후처리 에이전트가 협업하여 시뮬레이션 파일을 생성·실행·오류 수정한다. 25개의 테스트 케이스에서 전체 성공률 84%를 달성했으며, 순수 텍스트 입력에서는 80%, 멀티모달 입력에서는 86.7%의 성공률을 보였다.

상세 분석

스웜폼은 기존 CFD 자동화 연구가 텍스트 기반 프롬프트에만 의존하던 한계를 극복하기 위해 ‘관찰자(Observer)’ 에이전트를 도입하고, 이미지와 텍스트를 동시에 처리하는 멀티모달 인식 메커니즘을 설계하였다. 두 가지 멀티모달 파싱 전략을 비교했으며, 이미지‑텍스트 임베딩을 결합해 사전 파싱(pre‑parsing)하는 첫 번째 방식이 전반적인 성공률과 오류 감소에 유리함을 실험적으로 입증했다.

시스템은 총 여섯 종류의 에이전트로 구성된다. 관찰자 에이전트는 사용자 요구와 시뮬레이션 이미지에서 물리·기하 정보를 추출하고, 이를 ‘분할 작업(DivideTask)’을 통해 시뮬레이션과 후처리 서브태스크로 나눈다. 설계자(Architect) 에이전트는 추출된 정보를 바탕으로 케이스명, 도메인, 솔버, 카테고리 등을 포함한 파일 구조를 정의한다. 입력작성자(InputWriter) 에이전트는 RAG(Retrieval‑Augmented Generation) 시스템을 활용해 로컬 문서(예: OpenFOAM 명령, 솔버 설명, 파일 네이밍 규칙)에서 관련 조각을 검색하고, 이를 프롬프트에 삽입해 정확한 blockMeshDict 및 기타 설정 파일을 생성한다. 실행자(Runner) 에이전트는 생성된 파일을 실제 OpenFOAM 명령어로 실행하고, 오류 메시지를 캡처한다. 검토자(Reviewer) 에이전트는 오류 로그를 분석해 가장 근본적인 원인 파일을 식별하고, ‘첫‑오류‑우선(first‑error‑priority)’ 전략에 따라 해당 파일을 수정하도록 입력작성자에게 피드백을 제공한다. 마지막으로 파라마스터(ParaMaster) 에이전트는 ParaView 스크립트를 자동 생성해 시뮬레이션 결과를 시각화한다.

RAG 시스템은 6개의 로컬 헬프 문서를 벡터화하여 데이터베이스에 저장하고, 질의 시 가장 유사한 텍스트 청크를 추출한다. 이 과정은 텍스트 LLM과 멀티모달 LLM 두 종류의 Q&A 인터페이스에 각각 적용되며, 멀티모달 입력이 필요한 경우 이미지와 텍스트 임베딩을 동시에 전달한다. 사용된 LLM은 DeepSeek‑R1, DeepSeek‑V3, Gemini‑2.5‑Flash 등 최신 모델이며, 모델 선택은 작업 유형에 따라 자동 전환된다.

실험에서는 25개의 복합 CFD 케이스(2D/3D, 층류·난류, 다양한 경계조건)를 선정하고, 순수 텍스트와 이미지‑텍스트 복합 입력 두 그룹으로 나누어 평가했다. 전체 성공률 84%는 기존 메타오픈포암 시리즈(성공률 60~70% 수준)보다 현저히 높으며, 특히 멀티모달 입력에서 86.7%의 높은 성공률을 보였다. 오류 분석 결과, 대부분의 실패는 파일 경로 오류나 형식 불일치였으며, 첫‑오류‑우선 전략이 토큰 사용량을 평균 30% 절감하고 재시도 횟수를 크게 줄였다.

한계점으로는 이미지 파싱 정확도가 이미지 품질에 민감하고, 복잡한 3D 기하 구조를 완전히 재현하는 데 아직 한계가 있다. 또한, RAG 기반 지식베이스가 최신 OpenFOAM 버전이나 특수 솔버에 대해 충분히 업데이트되지 않을 경우 오류가 발생한다. 향후 연구는 고해상도 3D 이미지 처리, 도메인‑특화 지식베이스 자동 업데이트, 그리고 물리‑일관성 검증 모듈을 추가해 신뢰성을 강화할 계획이다.


댓글 및 학술 토론

Loading comments...

의견 남기기