역사 기반 강화학습으로 검은 상자 LLM 탈옥 최적화
초록
본 논문은 기존 블랙박스 탈옥 기법이 과거 대화 정보를 활용하지 못하는 한계를 극복하고자, 상호작용 히스토리를 상태에 포함한 강화학습 프레임워크인 TrailBlazer를 제안한다. 히스토리‑증강 강화학습(HRL)과 주의 메커니즘을 이용한 어텐션‑기반 HRL(AHRL)을 통해 중요한 취약점을 강조하고, 적은 쿼리로 높은 탈옥 성공률을 달성한다. AdvBench과 HarmBench에서 최첨단 성능과 쿼리 효율성을 입증하였다.
상세 분석
TrailBlazer는 LLM 탈옥을 순차적 의사결정 문제로 모델링하고, 기존 RL‑breaker와 유사한 MDP 구조를 유지하면서도 상태 표현을 크게 확장한다. 기본 HRL에서는 현재 프롬프트 임베딩에 과거 K 단계의 히스토리 벡터(프롬프트 임베딩, 응답 특성, 보상, 적용된 변형자)를 연결(concatenation)함으로써, 에이전트가 이전 시도에서 드러난 ‘거부 신호’, ‘퍼플렉시티’, ‘독성’ 등 메타 정보를 직접 관찰하도록 설계했다. 이는 강화학습에서 흔히 발생하는 ‘credit assignment’ 문제를 완화하고, 실패 원인을 빠르게 파악해 다음 행동을 조정할 수 있게 한다.
하지만 모든 과거 단계에 동일 가중치를 부여하면, 불필요한 잡음이 섞여 학습 효율이 저하될 위험이 있다. 이를 보완하기 위해 제안된 AHRL은 현재 프롬프트 임베딩을 쿼리로, 히스토리 행렬을 키‑밸류 쌍으로 삼아 스케일드 닷‑프로덕트 어텐션을 적용한다. 어텐션 가중치 α(t)는 현재 상황과 가장 연관성이 높은 과거 시도를 자동으로 강조하고, 덜 중요한 단계는 억제한다. 결과적으로 에이전트는 “어떤 변형이 거부를 유발했는가”, “어떤 변형이 모델의 안전 필터를 회피했는가” 등을 빠르게 학습한다.
실험 설계는 두 개의 표준 벤치마크(AdvBench, HarmBench)를 사용했으며, 비교 대상은 LLM‑driven search, 유전 알고리즘 기반 블랙박스 공격, 기존 RL‑breaker 등 다섯 가지 최신 방법이다. 평가 지표는 탈옥 성공률, 평균 쿼리 수, 그리고 성공까지 소요된 단계 수이다. TrailBlazer는 특히 쿼리 효율성 면에서 현저히 우수했으며, 동일 성공률을 달성하는 데 필요한 평균 쿼리 수가 기존 방법 대비 3045% 감소했다. 어텐션 메커니즘을 적용한 AHRL이 HRL 단독보다 추가적인 58% 성공률 향상을 보였으며, 이는 히스토리 정보의 선택적 활용이 실제 공격 성능에 큰 영향을 미친다는 것을 실증한다.
한계점으로는 히스토리 윈도우 길이 K와 어텐션 차원 d에 대한 민감도가 존재한다는 점이다. 너무 짧은 K는 충분한 맥락을 제공하지 못하고, 지나치게 긴 K는 계산 비용과 과적합 위험을 높인다. 또한 현재 구현은 변형자 집합을 5가지로 고정했으며, 더 풍부한 액션 스페이스를 도입하면 추가 성능 향상이 가능할 것으로 보인다. 마지막으로 보상 설계가 여전히 외부 레퍼런스 모델(Vicuna‑7B)과의 코사인 유사도에 의존하므로, 레퍼런스 모델의 편향이 전체 공격 효율에 영향을 줄 수 있다. 향후 연구에서는 보상 함수를 다중 목표(예: 독성, 설득력, 문맥 유지)로 확장하고, 어텐션 메커니즘을 트랜스포머 기반 정책 네트워크와 결합해 더 복잡한 히스토리 구조를 처리하는 방안을 탐색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기