코드 취약점 탐지에서 검색강화 프롬프팅의 효과: 미세조정 대비 성능 분석

초록

이 논문은 대형 언어 모델(Large Language Models, LLMs)을 사용한 코드 취약점 탐지를 위해 제시된 few-shot 프롬핑과 fine-tuning 방법의 효과를 비교한다. 특히, retrieval-augmented prompting이라는 전략이 표준 few-shot 프롬핑보다 우수한 성능을 보이는 것을 확인했다.

상세 요약

본 논문은 코드 취약점 탐지에서 few-shot 프롬핑과 fine-tuning의 성능을 비교한다. 특히, retrieval-augmented prompting이라는 전략이 표준 few-shot 프롬핑보다 우수한 성능을 보이는 것을 확인했다. 이 연구는 Gemini-1.5-Flash 모델을 사용하여 세 가지 접근법을 평가하였다: (1) 무작위로 선택된 예제를 사용하는 표준 few-shot 프롬핑, (2) 의미적으로 유사한 예제를 사용하는 retrieval-augmented prompting, 그리고 (3) 모델 추론 없이 검색된 예제에 기반하여 레이블을 할당하는 retrieval-based labeling. 이 연구 결과, retrieval-augmented prompting은 다른 프롬핑 전략보다 일관되게 우수한 성능을 보였다. 20 샷에서 F1 점수는 74.05%, 부분적 일치 정확도는 83.90%를 기록했다. 또한, retrieval-augmented prompting은 zero-shot 프롬핑(F1 점수: 36.35%, 부분적 일치 정확도: 20.30%)과 fine-tuned Gemini 모델(F1 점수: 59.31%, 부분적 일치 정확도: 53.10%)보다 우수한 성능을 보였으며, 모델 미세조정에 따른 훈련 시간과 비용을 피할 수 있었다.

초록

상세 요약

📜 논문 원문 (영문)