LLM 워터마크 회피를 위한 편향 역전 기법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 검증 없이도 LLM이 삽입한 워터마크를 효과적으로 제거할 수 있는 새로운 쿼리‑프리 공격인 BIRA(Bias‑Inversion Rewriting Attack)를 제안한다. 이론적으로 초록‑토큰의 평균 조건부 확률을 작은 마진만큼 낮추면 검출 확률이 지수적으로 감소한다는 점을 증명하고, 실제 구현에서는 토큰 자체 정보를 이용해 고엔트로피 토큰을 억제 집합으로 선정한 뒤 로그잇에 음의 바이어스를 적용한다. 실험 결과, 다양한 최신 워터마크 스킴에 대해 99% 이상의 회피율을 달성하면서 의미 보존도 기존 방법보다 크게 향상되었다.

상세 분석

논문은 먼저 워터마크 검출이 초록‑토큰 비율 ( \hat p(y;W_k) ) 에 대한 임계값 ( p_\tau ) 을 초과하는지 여부로 귀결된다는 Lemma 4.1을 제시한다. 이를 기반으로 Theorem 4.2에서는 재작성(rewriting) 과정에서 각 토큰이 초록 집합 ( G(W_k) ) 에 속할 조건부 확률을 평균적으로 ( \delta>0 ) 만큼 낮추면 검출 확률이 ( \exp(-N\delta^2/2) ) 형태로 급격히 감소함을 보인다. 여기서 ( N ) 은 생성 토큰 수이며, 작은 ( \delta ) 만으로도 충분히 검출을 무력화할 수 있음을 의미한다.

실제 공격 설계에서는 비밀키에 의해 정의된 ( G(W_k) ) 를 직접 알 수 없으므로, 논문은 워터마크가 삽입된 원본 텍스트 ( \hat y ) 속에서 “워터마크 흔적”을 대체할 프록시 억제 집합 ( \tilde G ) 을 만든다. 이를 위해 공개 언어 모델 ( M ) 을 사용해 각 토큰의 자기정보 ( I(n) = -\log P_M(\hat y_n|\hat y_{<n}) ) 를 계산하고, 상위 ( q ) 백분위에 해당하는 고엔트로피 토큰을 ( \tilde G ) 에 포함한다. 고엔트로피 토큰은 워터마크가 의도적으로 편향을 가하기 쉬운 위치이므로, 이들을 억제하면 초록‑토큰 비율을 자연스럽게 낮출 수 있다.

BIRA는 재작성 단계에서 매 디코딩 스텝마다 로그잇 ( l_t ) 에 ( \beta<0 ) 라는 음의 바이어스를 ( \tilde G ) 에 속하는 토큰에 추가한다. 즉, ( l_t(u) \leftarrow l_t(u) + \beta\cdot\mathbf{1}_{{u\in\tilde G}} ) 이다. 이때 ( \beta ) 가 너무 강하면 텍스트가 반복되거나 의미가 손상되는 “디제너레이션” 현상이 발생한다. 논문은 최근 ( h ) 토큰의 1‑그램 다양성 비율을 모니터링해 ( \rho ) 임계값 이하가 되면 ( \beta ) 를 점진적으로 완화( ( \beta \leftarrow \min(0,\beta+lr) ) )하고 재시도한다. 이러한 적응형 바이어스 조정은 의미 보존과 워터마크 억제 사이의 트레이드오프를 자동으로 최적화한다.

실험에서는 KGW, Sentence‑Level Watermark, 그리고 최신 변형들에 대해 BIRA를 적용했으며, 기존 쿼리‑프리 공격(예: Cheng et al., 2025; Diaa et al., 2024) 대비 평균 20‑30% 높은 의미 유사도 점수와 함께 99% 이상의 회피율을 기록했다. 특히, 토큰 수준 워터마크에서 ( \delta=0.1 ) 정도만 억제해도 검출 확률이 ≈0.3 으로 급감하고, ( \delta=0.2 ) 이면 ≈0.01 이하로 떨어지는 것을 확인했다. 이는 이론적 분석이 실제 모델에서도 강력히 적용됨을 입증한다.

결과적으로, 논문은 “초소량의 로그잇 억제만으로도 워터마크를 실질적으로 무력화할 수 있다”는 새로운 보안 인사이트를 제공한다. 현재 워터마크 설계가 토큰‑레벨 편향에 크게 의존한다는 점을 지적하며, 보다 강인한 검출 통계나 다중 레벨(문장‑레벨·구조‑레벨) 워터마크 개발이 필요함을 강조한다.

LLM 워터마크 회피를 위한 편향 역전 기법

초록

상세 분석

댓글 및 학술 토론

의견 남기기