LLM 코드 요약 정확도 평가를 위한 변이 분석 접근법
초록
본 논문은 코드 요약을 생성하는 대형 언어 모델(LLM)의 요약이 실제 코드 동작을 반영하는지를 검증하기 위해 변이 분석 기반 평가 프레임워크를 제안한다. 합성 프로그램과 인간이 작성한 파이썬 과제에 대해 624개의 변이‑요약 쌍을 생성·평가하고, 모델 복잡도·변이 유형·위치가 요약 정확도에 미치는 영향을 분석한다. GPT‑4와 최신 GPT‑5.2를 비교한 결과, 최신 모델이 변이 감지 능력에서 크게 향상되었지만 여전히 구현 세부사항과 알고리즘 패턴을 구분하는 데 한계가 있음을 확인한다.
상세 분석
이 연구는 LLM이 코드 요약을 생성할 때 “의도(intent)”와 “동작(behavior)” 사이의 격차를 정량화하려는 시도로, 변이 분석이라는 소프트웨어 테스트 기법을 요약 평가에 적용한다. 먼저 12개의 합성 프로그램을 설계해 함수 단일, 다중 스레드, 복합 구조 등 복잡도 레벨을 달리하고, 각 프로그램에 대해 문장 삽입·삭제·재배열(Statement), 상수·파라미터 교체(Value), 연산자·조건 변경(Decision) 등 세 가지 변이 유형을 위치(시작·중간·끝)별로 적용한다. 변이 후 코드를 동일 프롬프트(“Explain the following code snippet in plain English.”)로 LLM에 입력하고, 원본과 변이된 요약을 인간 평가자가 비교해 변이 인지를 판단한다. 긍정(변이 인지)과 부정(인식 실패) 결과를 바탕으로 요약 정확도를 산출한다. 실험 1에서는 복잡도가 증가할수록 정확도가 급격히 떨어져 단일 함수에서는 76.5%였지만 다중 스레드 시스템에서는 17.3%에 불과했다. 변이 유형·위치는 상대적으로 미미한 영향을 미쳤다. 실험 2에서는 실제 개발자가 작성한 50개의 파이썬 과제(LBPP)에서 150개의 변이를 적용했으며, 전체 정확도는 49.3%로 합성 프로그램보다 낮았다. 이는 모델이 알고리즘의 전형적인 패턴을 기억해 설명하지만, 세부 구현 변화에는 민감하지 않음을 시사한다. 실험 3에서는 GPT‑4와 최신 GPT‑5.2를 동일 조건에서 비교했을 때, GPT‑5.2는 85.3%의 정확도로 크게 개선됐지만, 여전히 “구현 세부사항 vs. 표준 알고리즘 패턴” 구분에 어려움을 보였다. 또한 두 모델 모두 변이를 “버그”로 인식하는 비율이 차이가 있었으며, GPT‑5.2가 더 높은 탐지율을 보였다. 논문은 변이 기반 평가가 LLM 요약의 행동 일관성을 측정하는 실용적인 방법임을 입증하고, 향후 평가 벤치마크와 모델 설계에 활용될 수 있음을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기