블랙박스 LLM 워터마크: 샘플링 기반 무왜곡 검증 기법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 출력에 대해 로그 확률에 접근할 필요 없이, 단순히 텍스트 샘플만을 이용해 워터마크를 삽입하고 검출할 수 있는 새로운 블랙박스 워터마크 방식을 제안한다. 후보 텍스트들을 다수 샘플링하고, 비밀 키 기반의 의사난수 함수를 n‑그램에 적용해 점수를 매긴 뒤, 가장 높은 점수를 가진 시퀀스를 최종 출력으로 선택한다. 검출은 동일한 키와 n‑그램을 이용해 p‑값을 계산하는 통계 검정으로 수행한다. 이 방법은 텍스트 품질을 왜곡하지 않으며, 키를 중첩·재귀적으로 사용해 다단계 워터마크를 구현할 수 있다. 실험 결과는 기존 화이트박스 방식보다 높은 검출 정확도와 낮은 품질 손실을 보여준다.

상세 분석

이 논문은 LLM API 사용자가 로그 확률(다음 토큰 분포)에 접근할 수 없는 현실적인 제약을 정확히 짚어낸다. 기존 화이트박스 워터마크는 토큰 확률을 조작해 “녹색 토큰” 비율을 높이는 방식으로, 모델 자체를 수정하거나 로그를 노출해야 한다는 한계가 있다. 저자들은 이러한 제약을 피하기 위해 “샘플링 기반 선택”이라는 새로운 패러다임을 도입한다. 구체적으로, 주어진 프롬프트에 대해 m개의 후보 시퀀스를 LLM으로부터 무작위로 추출하고, 각 시퀀스의 n‑그램을 비밀 키 K와 결합한 해시값을 PRF g(w)=F

블랙박스 LLM 워터마크: 샘플링 기반 무왜곡 검증 기법

초록

상세 분석

댓글 및 학술 토론

의견 남기기