디코딩 순서를 이용한 확산 언어 모델 워터마킹

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

dgMARK는 확산 기반 언어 모델(dLLM)의 토큰 해제 순서를 조절해 워터마크를 삽입하는 방법이다. 토큰 확률을 직접 변형하지 않고, 해제 후보가 이진 해시의 패리티와 일치하는 위치를 우선 선택함으로써 검출 가능한 통계적 신호를 만든다. 기존 자동회귀 모델용 워터마크와 달리 순서‑민감성을 활용해 품질 저하를 최소하고, 슬라이딩‑윈도우 검출기로 삽입·삭제·치환·패러프레이징 등 사후 편집에도 강인함을 보인다.

상세 분석

dgMARK는 기존 LLM 워터마크가 토큰 확률을 인위적으로 편향해 “녹색/적색” 토큰 집합을 만들고, 이를 통계적으로 검출하는 방식과는 근본적으로 다르다. 확산 언어 모델(dLLM)은 마스크된 시퀀스를 반복적으로 디노이즈하면서 토큰을 임의 순서로 복원한다는 특성을 갖는다. 이론적으로는 어떤 복원 순서도 동일한 조건부 분포를 따르지만, 실제 모델은 학습 불완전성 및 디코딩 휴리스틱에 의해 순서에 민감하게 반응한다. dgMARK는 바로 이 순서‑민감성을 워터마크 채널로 활용한다.

핵심 아이디어는 다음과 같다. 비밀키 ξ에 기반한 해시 함수 f(v, ξ)∈{0,1}를 정의해 어휘 V를 두 집합 G_i(패리티‑매칭)와 R_i(잔여)로 나눈다. 여기서 G_i는 현재 위치 i의 인덱스와 해시값이 동일한 토큰 집합이다. 디코딩 단계마다 각 미노출 위치 j에 대해 후보 토큰 v_j와 보상 r_j를 기존 디코딩 전략(F)에서 얻는다. 그런 다음 v_j∈G_j인 위치들만 후보 집합 C에 포함시키고, C가 비어 있으면 일반 후보 집합으로 되돌아간다. 최종적으로 C에서 보상이 가장 큰 위치 k*를 선택해 토큰을 확정한다.

이 과정은 토큰 확률 자체를 재가중치하지 않으며, 단지 “어떤 위치를 먼저 풀어줄 것인가”를 조정한다. 따라서 텍스트 품질에 미치는 영향이 최소화된다. 또한, 다양한 디코딩 전략(Confidence, Entropy, Margin 등)과 호환되며, 한 단계 앞을 내다보는 look‑ahead 변형을 통해 미래에 패리티‑매칭 기회를 보존하도록 설계할 수 있다. 구체적으로는 상위 k개의 후보 위치를 선정하고, 각 후보를 한 단계 적용했을 때 다음 단계에서 얻을 수 있는 패리티‑매칭 토큰 수를 추정(g(j))하여 가장 큰 g(j)를 가진 후보를 선택한다. k=1이면 기본 greedy 버전과 동일하고, k를 키우면 계산량이 늘지만 워터마크 강도가 상승한다.

검출 측면에서는 전체 시퀀스에서 패리티‑매칭 토큰 비율을 통계적으로 측정한다. 무작위 텍스트에서는 0.5에 수렴하지만, dgMARK가 삽입된 텍스트는 이 비율이 유의하게 높다. 슬라이딩 윈도우 검출기를 사용하면 삽입·삭제·치환 등 사후 편집이 발생해도 로컬 패리티‑편향이 유지되어 검출률이 크게 떨어지지 않는다. 실험에서는 LLaDA, Dream 등 최신 dLLM에 적용해 다양한 베이스라인(기존 자동회귀 워터마크, 확산 전용 워터마크)과 비교했으며, BLEU·ROUGE·Perplexity 등 품질 지표는 거의 변동이 없고, 검출 정확도는 95% 이상을 기록했다.

이 논문은 두 가지 중요한 시사점을 제공한다. 첫째, 확산 모델의 “디코딩 순서”가 실제로 모델 출력에 영향을 미친다는 실증적 증거를 제시함으로써, 순서‑민감성을 활용한 새로운 보안·프라이버시 메커니즘의 가능성을 열었다. 둘째, 토큰 확률을 직접 조작하지 않는 “비침해형” 워터마크 설계가 가능함을 보여줌으로써, 생성 품질과 검출 강도 사이의 전통적인 트레이드오프를 크게 완화시켰다. 향후 연구에서는 다중키 동시 사용, 동적 해시 설계, 그리고 다른 생성형 모델(이미지·오디오 확산)으로의 확장 가능성을 탐색할 여지가 있다.

디코딩 순서를 이용한 확산 언어 모델 워터마킹

초록

상세 분석

댓글 및 학술 토론

의견 남기기