프리앰블을 이용한 인간 선호 역공학
초록
본 논문은 LLM‑as‑a‑judge 평가 체계에서, 후보 LLM에 사전 프리앰블을 삽입하도록 학습된 작은 프리앰블 생성기를 강화학습으로 튜닝함으로써, 인간 선호를 역공학하고 평가 점수를 인위적으로 상승시키는 새로운 공격 방법(RLRE)을 제안한다. 프리앰블만 조작해 후보 LLM을 그대로 유지하므로 기존의 응답 후처리 공격보다 탐지하기 어렵고, 다른 후보·판정 모델에도 전이 가능함을 실험적으로 입증한다.
상세 분석
논문은 LLM‑as‑a‑judge 프레임워크가 인간 선호를 예측하도록 훈련된 판정 LLM에 의존함으로써 발생하는 보안 취약점을 재조명한다. 기존 연구는 후보 LLM이 만든 응답에 텍스트 조각을 뒤에 붙이거나, 응답 자체를 재작성해 점수를 올리는 방식을 사용했으며, 이러한 변조는 퍼플렉시티 상승이나 인간 검토로 쉽게 탐지될 수 있었다. 저자들은 이러한 한계를 극복하기 위해 “프리앰블 생성기”라는 별도 모델을 도입한다. 프리앰블은 질문 앞에 삽입되는 시스템 프롬프트 역할을 하며, 후보 LLM이 이를 조건으로 삼아 답변을 생성한다. 핵심 아이디어는 판정 LLM이 부여하는 점수를 직접 보상으로 사용해 프리앰블 생성기를 강화학습(Contrastive Policy Gradient, CoPG)으로 최적화하는 것이다. 두 개의 샘플 프리앰블을 무작위로 생성하고, 각각이 유도한 후보 응답에 대한 점수 차이를 손실에 반영한다. KL‑다이버전스 정규화는 베이스 LLM(프리앰블 생성기의 초기 모델)과의 차이를 억제하되, β=0.03이라는 매우 낮은 가중치를 두어 프리앰블이 자유롭게 변형될 수 있게 설계했다.
실험에서는 Command 시리즈와 Llama 3.1 시리즈를 후보·판정 LLM로 사용하고, 각각의 조합에 대해 프리앰블 생성기를 훈련했다. 평가 벤치마크는 MT‑Bench(160개 다중턴 질문)과 추가 전이 검증을 위해 Arena‑Hard을 활용했다. 결과는 프리앰블을 삽입한 파이프라인이 기존의 ‘길이 증가’, ‘밴드왜건’, ‘권위’ 등 네 가지 편향 공격보다 평균 점수에서 현저히 높은 상승을 보였으며, 퍼플렉시티와 인간 평가에서는 거의 차이가 나지 않아 탐지가 어려웠다. 특히 훈련에 사용되지 않은 후보·판정 모델(예: Llama 70B와 Command R)에서도 유사한 점수 상승 효과가 관찰돼 전이 가능성이 입증되었다.
이러한 발견은 LLM‑as‑a‑judge 시스템이 단순히 모델 출력 점수에 의존할 경우, 인간 선호를 “역공학”해 인위적으로 조작할 수 있음을 시사한다. 프리앰블 자체가 자연어 형태이므로 해석 가능하지만, 동시에 인간이 이해하기 쉬운 프롬프트가 모델 행동을 크게 왜곡시킬 수 있다는 위험성을 내포한다. 향후 방어 전략으로는 프리앰블 검증, 다중 판정 모델 앙상블, 혹은 프리앰블 자체에 대한 메타‑평가 메커니즘 도입이 필요할 것으로 보인다.
댓글 및 학술 토론
Loading comments...
의견 남기기