Maple: 자연어로 이기종 슈퍼컴퓨터를 넘나드는 딥러닝 작업 실행하기

Maple: 자연어로 이기종 슈퍼컴퓨터를 넘나드는 딥러닝 작업 실행하기
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

다양한 GPU 클러스터에서 딥러닝 모델을 학습시키는 것은 스케줄러, 런처, 하드웨어 등 이기종 환경으로 인해 기술적으로 어렵고 사용자를 좌절시킵니다. 본 연구에서는 사용자의 자연어 설명을 받아 정확한 딥러닝 실행 스크립트를 생성하는 멀티 에이전트 시스템 ‘Maple’을 제안합니다. 정보 추출, 템플릿 검색, 검증, 디버깅의 4개 에이전트로 구성된 Maple은 미국 내 9개 주요 클러스터, 5가지 딥러닝 모델, 4가지 병렬 훈련 패러다임을 아우르는 567개 테스트 케이스에서 95.6%의 정확도를 달성하며, 이기종 HPC 환경에서 딥러닝 작업의 이식성과 확장성을 실현합니다.

상세 분석

본 논문이 제안하는 Maple 시스템의 기술적 핵심은 ‘템플릿 기반 생성’과 ‘멀티 에이전트 협업’에 있다. 시스템의 성공은 크게 두 가지 요소에 기반한다. 첫째, 실제 운영 중인 9개 미국 국가 슈퍼컴퓨팅 센터의 클러스터(Perlmutter, Polaris, Aurora 등)에서 수집한 검증된 실행 스크립트 샘플로 구성된 템플릿 저장소다. 이 저장소는 Slurm, PBS 등 상이한 스케줄러, NVIDIA A100/H200, Intel Max 시리즈 등 다양한 GPU 아키텍처, PyTorch DDP, DeepSpeed, Accelerate 등 다른 프레임워크와 병렬화 전략을 포괄한다. 이는 단순한 LLM 기반 코드 생성의 한계, 즉 특정 클러스터의 세부 정책, 모듈 환경, 런처 문법에 대한 지식 부재를 해결한다.

둘째, 네 개의 전문화된 에이전트가 협업하는 파이프라인이다. 1) 정보 추출 에이전트: 사용자 자연어 입력에서 대상 클러스터, 노드/GPU 수, 프레임워크 등 핵심 파라미터를 추출한다. 2) 템플릿 검색 에이전트: 추출된 정보(특히 대상 머신 이름)를 키로 템플릿 저장소에서 최적의 템플릿을 검색하고 파라미터를 채운다. 3) 검증 에이전트: 생성된 스크립트를 타겟 클러스터에서 미니-앱을 실행하여 실제 동작을 검증한다. 4) 디버그 에이전트: 검증 실패 시 오류 메시지를 분석하고 템플릿 저장소를 참조하여 스크립트를 수정하는 자가 수정 루프를 수행한다.

이 설계의 핵심 통찰은 “이기종 HPC 환경의 복잡성을 완전히 제너럴한 LLM으로 해결하기보다, 검증된 지식(템플릿)을 기반으로 하고, LLM의 추론 능력은 정보 추출과 제한된 디버깅에 활용하자"는 것이다. 따라서 총 파라미터 수 100B가 넘는 GPT-5, Claude 등 최상위 LLM들과 10B 파라미터 규모의 Maple이 비슷한 성능(95.6% 대비 비교 가능)을 보인다는 실험 결과는 매우 의미 있다. 이는 도메인 특화 지식의 위력을 보여주며, 계산 집약적인 HPC 작업에서 가벼우면서도 정확한 도구의 실용적 가치를 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기