LLM 기반 소스코드 취약점 탐지: 프롬프트 엔지니어링과 파인튜닝 비교
읽는 시간: 2 분
...
📝 원문 정보
- Title: Llama-based source code vulnerability detection: Prompt engineering vs Fine tuning
- ArXiv ID: 2512.09006
- 발행일: 2025-12-09
- 저자: Dyna Soumhane Ouchebara, Stéphane Dupont
📝 초록 (Abstract)
** 소프트웨어 생산량이 급증하고 개발 주기가 가속화됨에 따라 CVE 프로그램이 매년 보고하는 바와 같이 취약점이 지속적으로 증가하고 있다. 이에 따라 소스코드 취약점 탐지(CVD) 자동화가 필수적이며, 기존의 정적·동적 분석부터 최신 AI 기반 방법까지 다양한 접근법이 제시되고 있다. 본 연구는 현재 가장 성능이 뛰어난 AI 모델로 평가받는 대형 언어 모델(LLM)을 CVD 작업에 적용해 그 효율성을 평가한다. 파인튜닝과 프롬프트 엔지니어링의 여러 설정을 실험하고, 특히 “Double Fine‑tuning”이라는 새로운 파인튜닝 방식을 제안하며, 아직 충분히 연구되지 않은 테스트 시점 파인튜닝(Test‑Time Fine‑tuning)도 검증한다. 우리는 오픈소스 Llama‑3.1 8B 모델을 사용하고, BigVul 및 PrimeVul 데이터셋에서 추출한 소스코드 샘플을 활용한다. 실험 결과, 작업 해결에 파인튜닝이 핵심이며 Double Fine‑tuning이 높은 성능을 보인다. 반면 프롬프트만을 이용한 접근은 효과가 낮았지만, 예시 선택 기법으로서 RAG(검색 기반 생성) 활용은 비교적 좋은 결과를 나타냈다. 일부 연구 질문은 답을 얻었지만, 여전히 해결되지 않은 부분이 많아 향후 연구 과제가 풍부함을 시사한다. 코드와 자료는 공개 저장소에서 확인 가능하다.**
💡 논문 핵심 해설 (Deep Analysis)

본 논문은 소스코드 취약점 탐지라는 실용적이면서도 학술적으로 중요한 문제에 LLM을 적용한 최초 수준의 연구 중 하나로 평가할 수 있다. 먼저 연구 배경을 명확히 제시한다. 소프트웨어 개발 속도가 빨라지면서 기존 정적·동적 분석 도구만으로는 신규 취약점을 실시간으로 탐지하기 어려워졌으며, AI 기반 접근법이 대두되고 있다. 특히 Llama‑3.1 8B와 같은 최신 오픈소스 LLM은 코드 이해와 생성 능력이 뛰어나 기존 모델 대비 비용 효율적인 대안이 될 가능성을 보여준다.
방법론 측면에서 저자들은 두 가지 큰 축을 탐구한다. 첫째는 프롬프트 엔지니어링으로, 다양한 프롬프트 템플릿과 샘플 선택 전략(RAG 포함)을 시험했지만, 전반적으로 성능 향상이 제한적이었다는 점을 보고한다. 이는 LLM이 사전 학습 단계에서 코드 보안 지식을 충분히 내재하지 못했거나, 프롬프트만으로는 복잡한 논리적 추론을 이끌어내기 어려운 구조적 한계 때문일 가능성이 있다.
둘째는 파인튜…