학습 없이 LLM 텍스트 출처를 판별하는 방법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습이 필요 없는 제로샷 통계 검정을 통해, 주어진 텍스트가 특정 대형 언어 모델(LLM) 혹은 허가되지 않은 모델에 의해 생성되었는지를 높은 정확도로 구분한다. 로그 퍼플렉시티와 평균 교차 엔트로피의 수렴 특성을 이용해 오류율이 텍스트 길이에 따라 지수적으로 감소함을 이론적으로 증명하고, 샘플링 기반 블랙박스 접근까지 확장한다. 실험을 통해 짧은 문장에서도 강인함을 확인하였다.

상세 분석

이 연구는 LLM이 생성한 텍스트를 순차적 확률 과정으로 모델링하고, 평가 모델 A와 생성 모델 B 사이의 완전한 히스토리 의존성을 전제로 한다. 핵심 아이디어는 “로그 퍼플렉시티(log‑perplexity)”와 “평균 교차 엔트로피(average cross‑entropy)”가 텍스트 길이 N에 대해 각각 H(p)와 H(q,p)로 수렴한다는 점이다. 여기서 p는 평가 모델 A의 토큰 분포, q는 생성 모델 B의 분포를 의미한다.

통계 검정 설계
- 복합 검정 1: 텍스트가 집합 A(내부 허가 모델) 혹은 집합 B(비허가 모델) 중 어느 쪽에서 생성되었는지 판단한다.
- 복합 검정 2: 텍스트가 평가 모델 A에 의해 생성되었는지, 아니면 “A가 아니다”(다른 LLM, 인간 등)인지 구분한다.
  두 검정 모두 로그 퍼플렉시티와 평균 교차 엔트로피의 차이를 통계량으로 사용한다.
오차 감소 증명
- 마팅게일 차분을 정의해 로그 퍼플렉시티와 목표 엔트로피 사이의 편차를 평균화된 마팅게일로 표현한다.
- Azuma‑Hoeffding 부등식 등 마팅게일 집중 부등식을 적용해 편차가 exp(−cN) 형태로 급격히 감소함을 보인다.
- 따라서 Type I(오탐)와 Type II(누락) 오류 모두 텍스트 길이가 늘어날수록 지수적으로 작아진다.
블랙박스 확장
- 평가 모델 A에 대한 완전한 조건부 확률 분포가 없을 때, 샘플링을 통해 추정한다.
- 필요한 샘플 수 M 을 O(log 1/δ / ε²) 로 설정하면, 화이트박스와 동일한 오류 상한을 달성한다. 여기서 δ 는 신뢰 수준, ε 은 추정 오차이다.
정보 이론적 하한
- 두 모델 A와 B 사이의 KL‑다이버전스를 이용해 오류 감소 속도의 최적 하한을 도출한다.
- 이 하한은 제시된 상한과 같은 지수적 형태를 가지므로, 제안 검정이 거의 최적임을 증명한다.
실험 결과
- GPT‑3.5, LLaMA, 자체 개발 모델 등 다양한 LLM을 대상으로 테스트했다.
- 텍스트 길이 50~100 토큰에서도 95 % 이상의 정확도를 달성했으며, 의도적 포스트‑에디팅(동의어 교체, 문장 재배열)에도 강인함을 보였다.
- 블랙박스 설정에서는 1 000 샘플 이하로도 화이트박스 수준의 성능을 유지했다.
실용적 의의
- 교육기관, 기업, 소셜 미디어 등에서 비인가 LLM 사용을 실시간으로 감시할 수 있다.
- 낮은 허위 양성률을 보장하므로, 학생·직원에 대한 부당한 제재 위험을 최소화한다.
- 규제 기관이 요구하는 “AI 생성 콘텐츠 식별” 의무를 기술적으로 충족시킬 수 있다.

전반적으로 이 논문은 기존 학습 기반 탐지기의 데이터 의존성·일반화 한계를 극복하고, 이론적 보장을 갖춘 제로샷 검정을 제시함으로써 LLM 텍스트 출처 식별 분야에 새로운 패러다임을 제시한다.

학습 없이 LLM 텍스트 출처를 판별하는 방법

초록

상세 분석

댓글 및 학술 토론

의견 남기기