은유를 이용한 LLM 탈옥 AVATAR 공격
초록
본 논문은 악의적인 메타포를 활용해 대형 언어 모델(LLM)의 안전 장치를 우회하는 새로운 공격 프레임워크 AVATAR를 제안한다. benign 메타포를 초기 시드로 삼아 단계적 추론과 잔차 보정 과정을 통해 목표 모델이 직접적인 유해 콘텐츠를 생성하도록 유도한다. 실험 결과 GPT‑4o 등 최신 모델에서 92% 이상의 성공률을 기록하며 기존 공격보다 높은 전이성을 보였다.
상세 분석
AVATAR는 “AdVersArial meTAphoR”의 약자로, 기존의 직접적인 유해 텍스트 생성 방식과 달리 benign 메타포를 이용해 LLM을 점진적으로 악성 출력으로 이끈다. 핵심 구성은 두 단계로 나뉜다. 첫 번째 단계인 Adversarial Entity Mapping(AEM)에서는 공격자가 사전 정의된 해로운 작업(예: 폭탄 제작)에서 핵심 엔티티와 서브 엔티티를 추출하고, 이를 기반으로 다양한 크라우드소싱 LLM(툴 모델)에게 고온(temperature) 설정 하에 메타포 매핑을 수행한다. 여기서 생성된 후보 메타포는 Internal Consistency Similarity(ICS)와 Conceptual Disparity(CD)라는 두 정량 지표를 통해 평가된다. ICS는 원본 해로운 엔티티와 메타포 엔티티 간 내부 관계 유사성을 측정해 논리적 일관성을 보장하고, CD는 두 집합 사이의 외부 차이를 측정해 메타포가 너무 직접적이어서 안전 필터에 걸리지 않도록 한다. 최적화 목표는 sigmoid 변환을 통해 ICS − CD 값을 최대화하는 것으로, 이는 “효과적인 유해성”과 “독성 은폐” 사이의 균형을 의미한다.
두 번째 단계인 Metaphor‑Induced Reasoning(MIR)에서는 선택된 메타포를 실제 공격 쿼리에 삽입한다. 기본 쿼리(Q_ctx, Q_det)와 적응형 쿼리(Q_ext)를 결합해 초기 인터랙션(Q_init)을 구성하고, 목표 LLM의 응답을 실시간 피드백으로 활용해 쿼리를 재조정한다. 여기서 인간 사회적 영향 전략(예: 친절한 어조, 권위 부여)과 대화 히스토리 관리가 포함돼, 모델이 점차 메타포를 해석하면서 내부 지식을 누적하도록 만든다. 마지막으로 모델은 메타포 기반 추론 결과와 전문적인 해로운 답변 사이의 잔차를 보정(calibrate)함으로써 최종적으로 직접적인 유해 콘텐츠를 출력한다.
실험에서는 GPT‑4o, Claude‑3, Llama‑2‑Chat 등 5여 종의 최신 LLM을 대상으로 3회 재시도 제한 하에 공격 성공률(ASR)을 측정했다. AVATAR는 평균 92% 이상의 ASR을 기록했으며, 특히 GPT‑4o에서는 3회 시도 내 95% 성공, 다른 모델에서도 85% 이상을 달성했다. 또한, 동일한 메타포 시드와 AEM 파이프라인을 재사용했을 때 다른 모델에서도 높은 전이성을 보였는데, 이는 메타포 자체가 모델-불변적인 논리 구조를 활용한다는 점을 시사한다. 비교 실험에서는 기존 프롬프트 재작성 공격과 템플릿 기반 공격이 60% 이하의 성공률에 머물렀으며, AVATAR가 더 낮은 탐지율과 높은 효율성을 갖는 것으로 나타났다.
한계점으로는 메타포 선택 과정에서 크라우드소싱 모델의 품질에 크게 의존한다는 점, 그리고 복잡한 메타포가 인간 평가자에게는 이해하기 어려워 악용 여부 판단이 어려울 수 있다는 점을 들 수 있다. 윤리적 논의에서는 이러한 공격이 방어 연구를 촉진할 수 있지만, 동시에 악의적인 사용 가능성을 크게 높인다는 점을 강조한다. 저자는 메타포 기반 방어 메커니즘(예: 메타포 감지, 내부 일관성 검증)과 안전 필터의 다중 레이어링을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기