소프트웨어 엔지니어링 과제에서 대형 언어 모델 효율성 종합 평가
초록
본 연구는 11개의 최신 대형 언어 모델(LLM)을 버그 수정, 기능 구현, 코드 리팩터링, 기술 문서 작성, 연구 종합 등 5가지 소프트웨어 엔지니어링 작업에 적용해 자동 검증 프레임워크로 성능과 효율성을 비교하였다. 동일한 완벽 점수를 받은 모델들 사이에서도 완료 시간 22배, 도구 사용 효율 49배, 추정 비용 53배 차이가 발생했으며, 도구 호출 횟수와 성공률 사이에 유의한 상관관계가 없었다. 비효율성은 ‘루프 비효율’과 ‘추론 비효율’ 두 가지 패턴으로 구분되었다. 코딩 작업은 100% 성공률을 보였지만 연구 과제는 90.9%로 상대적으로 낮았다.
상세 분석
본 논문은 LLM 기반 소프트웨어 개발 지원 도구의 실용성을 정량적으로 평가하기 위해 다중 과제 벤치마크를 설계하였다. 11개의 모델은 OpenAI, Google, Deepseek, GLM, Kimi, Qwen 등 네 개 공급자에서 선정되었으며, 각 모델은 동일한 에이전트 환경(Zrb)에서 파일 읽기·쓰기·수정·쉘 실행·웹 검색(연구 과제 전용) 등 다섯 가지 도구를 활용하도록 구성되었다. 자동 검증 파이프라인은 버그 수정의 동시성 테스트, FastAPI 엔드포인트 검증, ETL 스크립트 기능 동등성 검사, 마크다운 키워드·포맷 검증, 연구 보고서의 분량·인용 검증을 포함한다.
성능 지표는 ‘EXCELLENT(2점)’, ‘PASS(1점)’, ‘FAIL(0점)’의 세 단계 점수와 함께, 총 소요 시간, 도구 호출 횟수, 도구 다양성, 추정 비용을 기록하였다. 결과적으로 네 모델(GPT‑5.1, Gemini‑3 Pro, Deepseek‑Chat, GLM‑4.7)이 10점 만점을 받았지만, 평균 완료 시간이 33초에서 732초까지 차이났으며, 평균 도구 호출 수는 3.8회에서 188회까지 다양했다. 특히 GPT‑5.1은 18.8초에 3번의 도구 호출로 버그를 해결했으며, Gemini‑3 Flash는 625초에 917번의 도구 호출을 사용해 동일한 ‘EXCELLENT’ 점수를 얻었다. Pearson 상관 분석 결과 도구 호출 수와 성공률 사이의 상관계수 r=0.077(p=0.575)로 통계적으로 유의미하지 않음이 확인되었다.
비효율성 분석에서는 두 가지 패턴이 도출되었다. 첫 번째 ‘루프 비효율’은 모델이 실패를 인식하지 못하고 동일한 도구 시퀀스를 반복하는 현상으로, 과도한 도구 호출과 시간 낭비를 초래한다. 두 번째 ‘추론 비효율’은 모델이 정답을 빠르게 도출하지 못하고 토큰 생성 속도가 느려 전체 실행 시간이 길어지는 경우이다. 이러한 비효율성은 특히 도구 사용이 빈번한 복합 작업에서 두드러졌다.
작업별 성공률을 살펴보면, 버그 수정, 기능 구현, 리팩터링은 100% 성공률을 기록했으며, 이는 현대 LLM이 코드 수준의 정확성을 충분히 확보함을 의미한다. 반면 기술 문서 작성은 일부 키워드 누락으로 PASS와 EXCELLENT 사이에 차이가 있었고, 연구 종합 과제는 인용 누락 및 웹 검색 오류 등으로 90.9%의 성공률에 머물렀다. 공급자별 비교에서는 OpenAI 모델이 평균 33초의 가장 짧은 소요 시간과 9.33점의 평균 점수를 기록하며 속도·품질 모두에서 우수함을 보였다.
본 연구는 LLM 선택 시 단순 정확도뿐 아니라 시간·도구 효율·비용을 종합적으로 고려해야 함을 강조한다. 또한, 도구 기반 에이전트 설계 시 루프 비효율을 방지하기 위한 실패 감지 메커니즘과 추론 비효율을 최소화하기 위한 토큰 생성 최적화가 필요함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기