LLM으로 CI/CD 파이프라인 실패 자동 관리: SAP HANA 사례 연구
초록
본 연구는 SAP HANA의 복잡한 Jenkins 기반 CI/CD 파이프라인에서 발생하는 빌드 실패를 자동으로 진단하고 해결책을 제시하기 위해 GPT‑4o 기반 대형 언어 모델(LLM)을 활용한 시스템을 설계·평가한다. 로그 전처리와 도메인 지식(파이프라인 메타데이터, 관리 매뉴얼, 과거 실패 사례)을 결합한 프롬프트를 제공함으로써 오류 위치를 97.4% 정확도로 식별하고, 정확한 해결책을 92.1%의 비율로 도출한다. 특히 과거 실패 데이터가 정확도 향상에 가장 크게 기여함을 확인하였다.
상세 분석
이 논문은 대규모 산업용 소프트웨어 프로젝트에서 CI/CD 파이프라인 실패 관리 자동화의 실현 가능성을 실증적으로 검증한다. 주요 기여는 다음과 같다. 첫째, Jenkins 기반 파이프라인의 복잡한 계층 구조(메인 파이프라인, 서브 파이프라인, 원격 파이프라인)를 고려하여 “가장 하위 단계에서 실패한 작업”을 정규표현식 기반으로 자동 탐색하는 방법을 제시한다. 이는 기존 도구가 제공하지 못하는 정확한 실패 지점을 빠르게 파악하게 해준다. 둘째, LLM에 제공되는 프롬프트에 도메인 지식을 어떻게 통합할 것인가에 대한 체계적인 설계가 이루어졌다. 파이프라인 메타데이터, 실패 관리 매뉴얼, 그리고 과거 동일 단계에서 발생한 실패 로그를 RAG(Retrieval‑Augmented Generation) 방식으로 상위 3개 사례를 선택해 함께 전달한다. 이러한 다중 지식 소스 결합이 LLM의 추론 정확도를 크게 높인다는 점을 실험적으로 입증하였다. 셋째, ablation study를 통해 각 지식 유형의 기여도를 정량화하였다. 과거 실패 데이터가 가장 큰 영향을 미쳐 정확도 향상에 15%p 이상을 제공했으며, 파이프라인 정보와 매뉴얼은 각각 5%p, 3%p 정도의 보조 효과를 보였다. 넷째, 시스템 전체를 Jenkins 파이프라인으로 구현함으로써 빌드 실패 시 자동 트리거가 가능하도록 설계하였다. 이는 인간 엔지니어가 로그를 일일이 탐색하는 시간을 수십 분에서 몇 초로 단축시킨다. 다섯째, 실험은 SAP HANA의 실제 배포 파이프라인(총 64 단계, 46개의 메인 스텝 및 3개의 서브 파이프라인)에서 200건 이상의 실패 사례를 대상으로 수행되었으며, 결과는 산업 현장에서의 적용 가능성을 충분히 뒷받침한다. 마지막으로, 논문은 LLM 기반 자동화가 기존 머신러닝 기반 로그 분석보다 로그 포맷 변화에 강인하며, 작은 데이터셋에서도 높은 성능을 유지한다는 점을 강조한다. 전체적으로 이 연구는 LLM을 CI/CD 실패 관리에 직접 적용함으로써 “원인 파악 → 해결책 제시”를 단일 호출로 수행하는 효율적인 워크플로우를 제시하고, 도메인 지식의 선택적 통합이 성능에 미치는 영향을 체계적으로 분석한 점에서 학술적·실무적 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기