Computer Science / Software Engineering

대응형 계층적 평가를 통한 LLM과 SAST 도구의 Python CWE 예측 성능 분석

대형 언어 모델(Large Language Models, LLMs)은 소프트웨어 개발에 필수적이지만 자주 취약한 코드를 생성합니다. 현재의 코드 취약점 탐지 벤치마크는 이진 분류를 사용하고 있어 CWE 수준의 구체성이 부족하여 반복적인 수정 시스템에서 실질적인 피드백이 어렵습니다. 우리는 LLMs과 SAST 도구를 평가하기 위해 계층화에 대한 인식을 갖춘, CWE 특수 패널티를 사용하는 함수 레벨의 Python 벤치마크인 ALPHA(Adaptive Learning via Penalty in Hierarchical Assessment)를 제시합니다. ALPHA는 과도한 일반화, 과도한 구체화 및 횡단 오류를 구분하여 진단 도구로서 실제 차이점을 반영합니다. 7개의 LLMs과 2개의 SAST 도구를 평가한 결과, LLMs은 전체적으로 SAST보다 훨씬 높은 성능을 보였지만, SAST는 감지가 이루어질 때 더 높은 정확도를 나타냈습니다. 중요한 점은 예측 일관성이 모델 간에 매우 다름(8.26%~81.87%의 일치율)으로, 피드백 주도 시스템에 대한 의미가 큽니다. 우리는 향후 작업을 위해 ALPHA 패널티를 감독 학습 세분화에 통합하는 경로를 제시하며, 이는 원칙적인 계층 인식 취약점 탐지의 가능성을 열어놓습니다.

대응형 계층적 평가를 통한 LLM과 SAST 도구의 Python CWE 예측 성능 분석

슬리더 스마트 계약을 위한 정적 분석 프레임워크

그래프 변환을 이용한 부정적용조건 기반의 사용자 사례 진화 분석

블록체인 프로그래밍을 안전하게 위한 오브시디안 타입스테이트와 자산

sql4ml 머신 러닝을 위한 선언적 end-to-end 워크플로우

자율주행차 성능 평가를 위한 시나리오 정의를 위한 본질적 체계 객체 지향 프레임워크

AI 공급망 보안 개발자가 말하는 문제와 해결책

AI 라이브러리의 숨은 손길, 오픈소스 프로젝트와 커뮤니티를 형성하다

DynaFix 실행 수준 동적 정보로 주도되는 반복적 자동 프로그램 수정

LLM 기반 자동차 시스템의 안전성 및 보안 설계

RovoDev 코드 검토자 아틀라시안에서의 대규모 온라인 LLM 기반 코드 검토 자동화 평가

결함의 탄생 시간적 예측으로 다가오는 미래는?

기계를 위한 코드, 인간만을 위한 것이 아니라 코드 헬스 메트릭으로 AI 친화성을 측정하기

대형 언어 모델로 자동 이슈 할당 혁신

알고리즘 편견 클러스터 파헤치기：계량과 해석

인간 중심의 소프트웨어 엔지니어링 AI 동료 평가ramework으로의 진화

인라인 코더 리포지토리 수준의 코드 생성 혁신

코드 언어 모델의 정확한 오류 예측법 감독 모델이 답이다

코드 취약점 감지에 있어서 RAG, SFT 및 듀얼 에이전트 시스템의 실험적 평가

하이브리드-코드 프라이버시 보호형 다중 에이전트 임상코딩 시스템

< 분야별 논문 현황 (Total: 566) >

검색 시작

검색 결과 없음