Meta SecAlign: 프롬프트 인젝션 방어를 갖춘 오픈소스 대형 언어 모델

Meta SecAlign: 프롬프트 인젝션 방어를 갖춘 오픈소스 대형 언어 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Meta SecAlign은 Llama 3 기반의 8 B와 70 B 두 규모 모델을 공개하며, 모델 수준에서 프롬프트 인젝션을 차단하는 SecAlign++ 방식을 적용한다. 새 메시지 타입으로 신뢰된 입력과 비신뢰 데이터를 구분하고, 주입 위치를 무작위화·자체 생성 응답으로 학습함으로써 기존 SecAlign 대비 유틸리티 손실을 최소화하고 공격 성공률을 0~6 % 수준으로 낮춘다. 9개의 일반 성능 벤치마크와 7개의 보안 벤치마크에서 상용 모델과 견줄 만한 효용‑보안 트레이드오프를 달성한다.

상세 분석

Meta SecAlign 논문은 프롬프트 인젝션(PI) 공격이 LLM‑통합 애플리케이션의 가장 심각한 위협임을 강조하고, 기존 시스템‑레벨 방어가 적용 범위와 강도에서 한계를 보이는 반면, 모델‑레벨 방어가 근본적인 해결책이라는 점을 재확인한다. 저자들은 공개된 Llama 3‑Instruct 모델을 기반으로 두 가지 핵심 개선점을 제시한다. 첫째, “input”이라는 새로운 메시지 역할을 도입해 신뢰된 system·user 프롬프트와 비신뢰 데이터(외부 검색 결과, 파일 내용 등)를 명시적으로 구분한다. 이 구분은 특수 토큰(<|begin_of_text|> 등)으로 구현되며, 데이터 내부에 이러한 토큰이 존재하면 재귀적으로 필터링해 공격자가 탈출하는 것을 방지한다. 둘째, SecAlign++ 학습 레시피는 두 가지 기술적 변형을 포함한다. (1) 주입 위치 무작위화: 기존 SecAlign이 데이터 끝에 삽입된 공격 문장을 학습하면서 “마지막 문장을 무시한다”는 단축 경로를 형성하는 문제를 해결하기 위해, 45 %는 데이터 앞쪽, 45 %는 뒤쪽, 나머지 10 %는 Completion 형태로 주입한다. 이렇게 하면 모델이 메시지 타입 자체를 인식하고, 비신뢰 지시를 무시하도록 강제한다. (2) 자체 생성 응답 활용: 공개 데이터의 응답을 그대로 사용하지 않고, 사전 학습된 LLM이 생성한 고품질 응답을 레퍼런스로 삼아 DPO(Direct Preference Optimization) 학습을 수행한다. 이는 데이터 분포의 일관성을 높여 유틸리티 저하를 최소화한다. 실험에서는 9개의 유틸리티 벤치마크(예: MMLU, GSM‑8K, HumanEval 등)와 7개의 보안 벤치마크(SEP, AgentDojo, WASP 등)를 포괄적으로 평가하였다. 70 B 모델은 SEP에서 6.4 %의 공격 성공률(ASR), AgentDojo에서 1.9 % ASR, WASP에서는 0 % ASR를 기록했으며, 유틸리티 점수는 GPT‑5와 동등하거나 그에 근접했다. 특히, 툴 호출·웹 네비게이션 같은 에이전시 작업에서도 보안이 유지되는 점은 기존 오픈소스 방어 모델이 달성하지 못한 성과다. 모델‑레벨 방어가 비신뢰 데이터에만 적용되므로, 시스템‑레벨 방어와 병행하면 다층 방어 체계 구축이 가능하다는 실용적 시사점도 제공한다. 한계로는 현재 Llama 3 기반에 국한된 설계와, 대규모 파인튜닝 비용, 그리고 아직 완전한 적응형 공격(예: 사전 학습된 프롬프트 변형) 대비 검증이 부족한 점을 들 수 있다. 향후 연구는 다른 모델 아키텍처에 적용, 더 정교한 공격 시나리오(멀티턴, 역동적 프롬프트) 테스트, 그리고 방어와 공격을 동시에 학습하는 적대적 프레임워크 개발을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기