다중비트 LLM 워터마크의 용량 한계와 최적 전송 기반 ArcMark 설계
초록
본 논문은 대형 언어 모델(LLM)에서 평균 다음 토큰 분포를 변화시키지 않으면서 다중비트를 삽입·복원할 수 있는 정보이론적 용량을 최초로 정의하고, 이를 달성하는 새로운 워터마크 체계 ArcMark을 제안한다. ArcMark은 원형 최적 전송과 무작위 선형 채널 코드를 결합해 각 토큰에 메시지 정보를 고르게 분산시키며, 특정 i.i.d. 토큰 분포 클래스에서 용량을 달성함을 증명한다. 실험에서는 Llama2‑7B와 Llama3‑8B를 대상으로 비트당 토큰 비율과 복원 정확도 모두 기존 다중비트 워터마크(BiMark, MPAC)보다 우수함을 확인한다.
상세 분석
이 논문은 LLM 워터마크를 “왜곡‑프리” 채널 코딩 문제로 재정의함으로써 기존 연구와 근본적인 차별점을 만든다. 먼저 저자는 워터마크 삽입 시 평균 토큰 분포를 유지해야 한다는 제약을 수식화하고, 이를 ‘distortion‑free constraint’라 명명한다. 이 제약 하에서 토큰 시퀀스를 i.i.d. 확률분포 Q에 따라 독립적으로 생성한다고 가정하면, 전체 시스템은 (W, Q) → X 형태의 확률 채널로 모델링될 수 있다. 여기서 W는 메시지와 비밀키를 결합한 인코딩 변수이며, X는 실제 생성된 토큰이다.
용량 정리는 Theorem 3.1에서
(R_{\text{cap}} = \max_{P_W,,x(\cdot)} I(W;X))
subject to ( \Pr{X = x \mid Q = q}=q(x)) 로 제시된다. 이는 “조건부 분포를 그대로 유지하면서도 메시지와 토큰 사이의 상호정보를 최대화하는 인코딩”을 찾는 최적화 문제와 동일하다. 특히, 토큰 분포가 두 토큰에만 ½씩 할당되는 특수 클래스 (P_2(\mathcal{X}))에 대해 Corollary 3.2를 통해 용량을 명시적으로 계산하고, N→∞ 일 때 약 0.2787 bits/token에 수렴함을 보인다. 이는 기존에 단일 비트를 토큰당 삽입하던 방식에 비해 2~3배 이상의 효율을 의미한다.
ArcMark의 핵심 설계는 두 단계로 나뉜다. 첫째, 메시지를 길이‑n 선형 코드워드 (C\in\mathbb{Z}_p^n) 로 변환한다. 둘째, 각 토큰 t에 대해 코드워드 심볼 C_t와 비밀키 V_t를 복소평면상의 단위 원 위의 점으로 매핑하고, 원형 최적 전송(Optimal Transport) 문제를 풀어 “arc length”를 최소화하면서 원본 토큰 분포 q를 보존하도록 새로운 토큰 X_t를 샘플링한다. 이 과정은 토큰당 일정량의 메시지 정보를 내재시키며, 전체 시퀀스에 걸쳐 전역적인 오류 정정 능력을 제공한다.
이론적으로는 위 설계가 특정 i.i.d. 토큰 분포에서 용량을 달성함을 증명했으며, 실험적으로는 Llama2‑7B와 Llama3‑8B에 적용해 3‑bit, 8‑bit, 16‑bit 메시지에 대해 토큰 수 대비 복원 정확도가 기존 BiMark·MPAC보다 현저히 높았다. 특히, 토큰당 비트율이 증가할수록 정확도 격차가 확대되는 것을 Figure 1이 보여준다. 또한, 퍼플렉시티 측정에서 ArcMark이 원본 모델과 차이가 없음을 확인해 ‘왜곡‑프리’ 특성을 실증했다.
이 논문의 의의는 (1) 다중비트 워터마크의 정보이론적 한계를 최초로 정량화했으며, (2) 채널 코딩·최적 전송이라는 강력한 도구를 LLM 워터마크에 적용해 실용적인 고효율 방식을 제시했다는 점이다. 앞으로는 비 i.i.d. 토큰 흐름, 다중 모델 환경, 그리고 실시간 검증을 포함한 확장 연구가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기