저작권 위험을 억제하는 앵커드 디코딩
초록
본 논문은 위험도가 높은 대규모 언어 모델이 학습 데이터에서 기억한 문장을 그대로 출력하는 문제를 해결하기 위해, 안전한 퍼블릭 라이선스 모델과 위험한 모델을 실시간으로 융합하는 ‘앵커드 디코딩’ 기법을 제안한다. 전역 KL 예산 K를 사용해 단계별 KL 제한을 부과하고, 프리픽스 부채와 적응형 예산 관리로 초기 위험을 조절한다. 또한 토큰‑레벨 호환이 어려운 경우를 위해 바이트‑레벨 버전과, Llama 토크나이저와 호환되는 TinyComma 1.8B 안전 모델을 공개한다. 실험 결과, 6가지 모델 쌍에 대해 복제 위험을 평균 75%까지 감소시키면서 원본 유창성을 크게 유지한다.
상세 분석
앵커드 디코딩은 두 모델, 즉 퍼블릭 도메인 텍스트만으로 학습된 안전 모델(p_s)과 다양한 라이선스 데이터를 포함한 위험 모델(p_r)을 입력으로 받아, 매 토큰마다 두 확률 분포의 가중 기하 평균을 계산한다. 핵심은 전역 KL 예산 K를 사전에 정의하고, 이를 토큰별 예산 k_t 로 분할해 각 단계에서 KL 제한을 만족하도록 λ(라그랑주 승수)를 조정하는 것이다. 이때 λ는 1차원 루트 찾기 문제로, 안전 모델과 위험 모델 사이의 KL 차이가 k_t 이하가 되도록 빠르게 수렴한다.
논문은 두 가지 실용적 개선을 제시한다. 첫 번째는 ‘프리픽스 부채’(δ_init)로, 입력 프롬프트가 이미 위험 모델에 의해 높은 기억 가능성을 보이는 경우 초기 예산을 차감한다. 이는 로그우도비(Likelihood Ratio) 상위 n개의 토큰을 기반으로 계산되며, 초기 단계에서 안전 모델에 더 많이 의존하도록 만든다. 두 번째는 ‘적응형 예산 관리’로, 각 단계에서 실제 사용된 KL(k_t 사용량)을 누적하고 남은 예산을 다음 단계에 이월한다. 이렇게 하면 모델이 자연스럽게 안전 모델과 일치하는 구간에서는 예산을 절약하고, 위험도가 급증하는 구간에서 더 많은 자유도를 확보한다.
이론적으로는 KL 체인 룰을 이용해 토큰별 제한이 전체 시퀀스의 KL 누적을 K 이하로 보장함을 증명한다(정리 3.1). 또한, 동일한 λ를 사용해 가중 기하 평균을 구하는 것이 최적해임을 제시한다(명제 3.3).
실험에서는 TinyComma 1.8B라는 경량 안전 모델을 새로 공개하고, 이를 Llama 3.1 70B와 같은 고성능 위험 모델과 결합한다. 바이트‑레벨 버전(Anchored Byte Decoding)은 토크나이저 불일치를 해결해 다양한 모델 쌍을 지원한다. 평가 지표는 6가지 복제 측정(metric)과 유창성·사실성 점수이며, 앵커드 디코딩은 위험 모델 단독 대비 복제 격차를 평균 75%까지 줄이면서 유창성 손실을 최소화한다. 인퍼런스 오버헤드는 1.1배 정도로, 안전 모델이 작아 추가 비용이 제한적이다.
전체적으로 이 방법은 사전 재학습 없이도 기존 모델에 플러그‑인 형태로 적용 가능하며, 사용자에게 위험‑유용성 트레이드오프를 조절할 수 있는 명확한 파라미터(K)를 제공한다. 또한 KL 기반의 정량적 안전 보장은 법적·윤리적 컴플라이언스 요구에 부합하는 강력한 근거를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기