LLM 보안 약점 탐색을 위한 SPELL 프레임워크
초록
SPELL은 악성 코드 생성을 목표로 LLM의 보안 정렬 약점을 평가하는 테스트 프레임워크이다. 사전 지식 데이터셋의 문장을 시간 분할 방식으로 결합해 새로운 탈옥 프롬프트를 자동 생성하고, GPT‑4.1, Claude‑3.5, Qwen2.5‑Coder 등 세 코드 모델에 대해 8개 악성 코드 카테고리에서 높은 성공률을 기록하였다. 실험 결과는 현재 코드 생성 LLM이 심각한 보안 격차를 가지고 있음을 보여준다.
상세 분석
SPELL은 기존 탈옥 연구가 일반적인 대화형 LLM을 대상으로 하는 반면, 악성 코드 생성이라는 구체적 목표에 초점을 맞춘 점에서 차별성을 가진다. 핵심 아이디어는 사전 지식 데이터셋에 포함된 수천 개의 문장을 시간‑분할 선택 전략으로 조합해 프롬프트 풀을 만든 뒤, 탐색 단계와 활용 단계로 나누어 공격 패턴을 진화시키는 것이다. 탐색 단계에서는 무작위성 높은 조합을 시도해 새로운 취약점 후보를 발굴하고, 활용 단계에서는 이전 성공 사례를 기반으로 높은 성공 확률을 보이는 문장 조합을 집중적으로 재사용한다. 이러한 이중‑루프 구조는 탐색‑활용 트레이드오프를 효율적으로 관리해 전체 공격 성공률을 크게 끌어올린다.
데이터셋 구축 과정에서도 주목할 점이 있다. 연구진은 공개된 악성 코드 레포지터리와 보안 보고서를 크롤링해 8개의 악성 코드 카테고리(예: 파일 삭제, 키로깅, 원격 명령 실행 등)를 정의하고, 각 카테고리별 핵심 기능을 설명하는 문장을 추출하였다. 추출된 문장은 의미적 중복을 최소화하기 위해 클러스터링과 의미 유사도 필터링을 적용했으며, 최종적으로 3,200여 개의 고품질 문장 풀을 확보했다.
실험에서는 세 가지 최신 코드 모델을 대상으로 프롬프트를 입력하고, 생성된 코드를 자동화된 악성 코드 탐지 엔진과 인간 전문가 검증을 통해 악성 여부를 판단하였다. GPT‑4.1은 83.75%의 높은 성공률을 보였으며, Qwen2.5‑Coder도 68.12%에 달했다. 반면 Claude‑3.5는 상대적으로 낮은 19.38%를 기록했는데, 이는 모델의 사전 정렬 방식과 안전성 강화 메커니즘 차이에 기인한다는 해석이 가능하다. 또한, 실제 AI 코딩 도구인 Cursor에 적용했을 때도 73% 이상의 탐지 회피율을 확인했으며, 이는 실무 환경에서도 위험이 현실화될 수 있음을 시사한다.
보안 측면에서 중요한 통찰은 두 가지이다. 첫째, 기존 정렬 방법이 코드 생성 시 발생할 수 있는 악성 로직을 충분히 억제하지 못한다는 점이다. 둘째, 프롬프트 설계 자체가 LLM의 행동을 크게 좌우한다는 점으로, 공격자는 비교적 간단한 문장 조합만으로도 모델을 악용할 수 있다. 연구진은 이러한 약점을 보완하기 위해 정밀한 문맥‑레벨 감시와 동적 안전성 검증을 제안한다. 마지막으로, SPELL 프레임워크는 자동화된 공격 시나리오 생성 도구로서, 보안 연구자와 개발자가 LLM의 취약점을 사전에 탐지하고 방어 체계를 강화하는 데 활용될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기