미러마크: 왜곡 없는 다비트 워터마크로 대형 언어모델을 안전하게 추적
초록
미러마크는 토큰 샘플링 과정에서 균등 난수를 ‘모듈‑1 미러링’ 변환으로 반사시켜 다비트 메시지를 삽입한다. 이 과정은 확률 분포를 전혀 바꾸지 않으므로 텍스트 품질이 손상되지 않으며, 컨텍스트‑앵커드 균형 스케줄러(CABS)를 통해 토큰‑포지션 매핑을 균등하게 배분해 삽입·삭제 공격에 강인한다. 이론적 EER 분석과 300 토큰당 54비트 삽입 실험에서 기존 방법 대비 비트 정확도가 8‑12% 향상되고, 1% 위양성률에서 검출률이 최대 11% 상승한다.
상세 분석
미러마크는 기존 제로‑비트 워터마크가 갖는 ‘이진 검출’ 한계를 넘어, 다비트 페이로드를 왜곡 없이 전달한다는 점에서 혁신적이다. 핵심 아이디어는 Gumbel‑max 혹은 토너먼트 샘플링 단계에서 발생하는 균등 난수 U∼Uniform(0,1)를 메시지‑특정 피�터 ψ_M = M/2^m + ½ 로 미러링(Ψ(u;ψ_M)= (2ψ_M−u) mod 1)하는 것이다. 이 변환은 측정 보존(involution)이며, U가 균등이면 Ψ(U;ψ_M)도 균등하므로 토큰 선택 확률 분포에 전혀 영향을 주지 않는다. 따라서 생성된 텍스트는 원본 모델과 동일한 품질을 유지한다.
다비트 메시지를 여러 토큰에 걸쳐 삽입하기 위해 저자들은 Context‑Anchored Balanced Scheduler(CABS)를 설계했다. CABS는 ‘프레임’이라는 구간을 정의하고, 프레임 경계는 해시(Q) 의 하위 비트가 모두 0이 되는 시점으로 고정한다. 각 프레임 내에서 토큰‑포지션 할당을 균등하게 유지하도록 카운터를 관리하고, 삽입·삭제가 발생해도 프레임 경계가 재동기화되므로 전체 메시지 구조가 크게 깨지지 않는다. 이는 기존 방법이 의존하던 순차적 토큰‑포지션 매핑보다 강인하며, 토큰 수가 제한된 상황에서도 모든 포지션에 충분한 샘플을 확보한다.
검출 단계에서는 동일한 PRF와 키를 재현해 각 토큰에 대해 u값을 복원하고, Ψ⁻¹ 연산을 통해 원본 u를 추정한다. 이후 각 포지션별로 로그스코어(AA) 혹은 가중 평균 스코어(SynthID)와 유사한 통계량을 계산하고, 전체 토큰에 걸쳐 합산해 물음표(물표) 여부를 판단한다. 저자들은 이 검출 통계량의 분포를 이론적으로 분석해 Equal Error Rate(EER)를 도출했으며, 실험 결과가 분석과 일치함을 확인했다.
실험에서는 LLaMA‑2‑7B와 GPT‑Neo‑2.7B 등 여러 모델에 대해 300 토큰 길이의 텍스트에 54비트(=9 × 6비트) 메시지를 삽입했다. 비트 정확도는 기존 MP‑AC, RSBH, StealthInk 대비 8‑12% 상승했고, 1% 위양성률에서 검출률(TPR)은 최대 11% 더 높았다. 텍스트 품질은 BLEU, ROUGE, 인간 평가 모두 비워터마크와 차이가 없었으며, 삽입·삭제 공격(±1~3 토큰)에도 CABS 덕분에 디코딩 성공률이 90% 이상 유지되었다.
한계점으로는 키와 PRF가 노출될 경우 공격자가 동일한 미러링 과정을 역추적해 메시지를 제거하거나 위조할 수 있다는 점, 그리고 프레임 길이가 너무 짧으면 오버헤드가 증가하고, 너무 길면 삽입·삭제에 대한 복원력이 감소한다는 트레이드오프가 있다. 또한, 현재 구현은 토큰‑레벨에서만 동작하므로 문장‑레벨 혹은 멀티‑모달(이미지‑텍스트) 워터마크로 확장하려면 추가 연구가 필요하다.
전반적으로 미러마크는 ‘분포 보존 + 다비트 인코딩 + 프레임 기반 균형 스케줄링’이라는 세 축을 결합해, 텍스트 품질을 손상시키지 않으면서도 높은 검출 성능과 편집 강인성을 제공한다는 점에서 LLM 워터마킹 분야에 중요한 진전을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기