공진화적 다중모델 안전 정렬: 구조화된 적대적 진화의 힘
초록
기존 정적 적대적 정렬의 한계를 넘어, 공진화적 접근법(CEMMA)을 통해 다중모달 LLM의 안전성을 동적으로 강화하는 프레임워크를 제안한다. 유전자 연산자를 활용해 공격을 진화시키는 ‘진화 공격자’와 새로 발견된 취약점으로 방어자를 업데이트하는 ‘적응형 방어자’가 상호작용하며 지속적으로 보안을 강화한다.
상세 분석
본 논문이 제안하는 CEMMA 프레임워크의 핵심 기술적 혁신은 ‘구조화된 전략 이전’에 기반한 공격 진화와, 이를 활용한 폐쇄형 적응 정렬 루프에 있다. 기존 자동화된 레드팀링이 표면적 패러프레이징에 그쳐 국소적 변형만 생성하는 한계를 극복하기 위해, 세 가지 유전자 연산자를 설계하였다. 첫째, ‘Mutation’은 동일 공격 패밀리 내에서 의도와 이미지 일관성을 유지하며 다양한 표면 형식의 변형을 생성한다. 둘째, ‘Crossover’는 서로 다른 공격 패밀리 간에 효과적인 고수준 전략 구조(예: 담화 래퍼, 추론 스캐폴드)를 이전하여 실패한 공격을 개선한다. 이는 단순 변형을 넘어 비국소적 전략 향상을 가능하게 한다. 셋째, ‘Differential Evolution’은 동일 패밀리 내 성공/실패 공격 쌍에서 대조적 편집 신호를 추출해 타겟 공격에 적용함으로써, 방향성이 있는 정제를 수행한다. 이는 무작위 재구성보다 샘플 효율성을 높인다. 이러한 연산자들은 검사자(LLM-as-a-judge)의 점수 피드백 하에 블랙박스 환경에서 진화 탐색을 수행하며, 단순한 시드 공격이 정교한 제이브레이크의 구조적 효능을 계승하도록 돕는다. 한편, ‘적응형 방어자’는 각 세대에서 수집된 새로운 성공적 공격(하드 네거티브)과 일반 데이터를 혼합해 지속적으로 미세조정된다. 이는 진화하는 공격 분포에 정렬을 적응시키는 동시에, 과도한 정적 거부 행동(벤치 유틸리티 저하)을 방지한다. 실험 결과, 진화 공격자는 고정된 방어자에 대한 공격 성공률(ASR)을 크게 향상시켰으며, 적응형 방어자는 여러 벤치마크에서 더 높은 데이터 효율성으로 강건성과 일반화 성능을 개선했다. 또한 AdaShield와 같은 추론 시점 방어와의 호환성을 유지했다. 이는 안전 정렬을 단순한 일회성 훈련이 아닌, 지속적인 위협 환경 변화에 대응하는 적응형 과정으로 재정의한 중요한 패러다임 전환을 의미한다.
댓글 및 학술 토론
Loading comments...
의견 남기기