다중 전략 방정식 코드 탈옥
초록
EquaCode는 악의적 의도를 수학적 방정식으로 변환하고, 이를 코드 완성 형태로 해결하도록 LLM에게 요구함으로써 안전 제한을 회피하는 다중 전략 탈옥 기법이다. 실험에서 GPT 시리즈에서 91.19%, 10개 최신 모델에서 평균 86.98%의 성공률을 단일 질의로 달성했으며, 방정식 모듈과 코드 모듈을 결합했을 때 시너지 효과가 나타남을 확인하였다.
상세 분석
본 논문은 기존 자연어 기반 탈옥 기법이 단일 전략에 의존하고, 모델의 안전 필터를 우회하기 위해 교묘한 프롬프트 변형에만 의존한다는 한계를 지적한다. 이를 극복하기 위해 저자들은 두 가지 서로 다른 도메인—수학 방정식 풀이와 코드 완성—을 결합한 복합 공격 프레임워크인 EquaCode를 제안한다. 핵심 아이디어는 악의적 목표(예: 금지된 정보 제공)를 “문제 정의 → 수학적 표현 → 코드 구현”이라는 일련의 절차로 변환함으로써, LLM이 자연어 안전 규칙보다 문제 해결에 집중하도록 유도하는 것이다.
구조적으로 EquaCode는 (1) 공격자가 원하는 악의적 의도를 수학적 식으로 재구성하는 ‘방정식 모듈’과, (2) 해당 식을 해결하기 위해 파이썬 등 프로그래밍 언어의 코드 스니펫을 작성하도록 요구하는 ‘코드 모듈’로 구성된다. 방정식 모듈은 일반적인 수학 연산, 최적화 문제, 논리식 변환 등을 활용해 의도를 숨기며, 코드 모듈은 실제 계산을 수행하도록 설계되어 있다. 두 모듈을 순차적으로 연결함으로써 모델은 “수학 문제를 풀어라”라는 명령에 집중하고, 그 과정에서 안전 필터가 적용되는 자연어 문맥을 회피한다.
실험 설계는 크게 세 부분으로 나뉜다. 첫째, GPT‑3.5‑Turbo, GPT‑4 등 GPT 시리즈에 대한 단일 질의 성공률을 측정했으며, 평균 91.19%라는 높은 탈옥 비율을 기록했다. 둘째, LLaMA‑2, Claude‑2, Gemini 등 10개의 최신 오픈·클로즈드 모델에 대해 동일한 프로토콜을 적용했을 때 평균 86.98%의 성공률을 보였다. 셋째, 방정식 모듈만, 코드 모듈만 사용했을 때의 성능을 비교한 소거 실험(ablation)에서 두 모듈을 결합한 경우가 각각 단독 사용보다 현저히 높은 성공률을 나타냈다. 이는 두 도메인의 복합성이 모델의 안전 메커니즘을 더욱 효과적으로 무력화한다는 증거이다.
또한 논문은 공격 성공률이 모델 규모와 직접적인 상관관계가 없으며, 오히려 모델이 복합적인 추론 능력을 가질수록 EquaCode의 효과가 커진다는 점을 강조한다. 이는 기존 연구가 “모델이 클수록 안전하다”는 가정을 재검토하게 만든다.
한계점으로는 (1) 방정식·코드 변환 과정이 인간에게는 다소 복잡해 자동화된 대량 공격에 적용하기 어려울 수 있다는 점, (2) 특정 프로그래밍 언어나 수학적 도메인에 최적화된 모델에서는 방어 메커니즘이 강화될 가능성이 있다는 점을 들었다. 저자들은 이러한 한계를 극복하기 위해 방정식·코드 변환 자동화 파이프라인과, 다중 언어·다중 도메인에 대한 방어 전략 연구를 향후 과제로 제시한다.
전반적으로 EquaCode는 LLM 안전성 평가에 새로운 차원의 스트레스 테스트를 제공한다. 단일 프롬프트가 아닌, 다중 단계와 다중 도메인을 결합한 공격이 모델의 안전 필터를 우회하는 데 얼마나 효과적인지를 실증적으로 보여줌으로써, 향후 LLM 설계 시 안전 메커니즘을 다중 모달·다중 단계 공격에 대비하도록 설계해야 함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기