프리트레이닝 데이터 탐지를 위한 Top1 예측 차이 측정

프리트레이닝 데이터 탐지를 위한 Top1 예측 차이 측정
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Gap‑K%는 LLM의 다음 토큰 예측에서 모델이 가장 높은 확률을 부여한 토큰과 실제 정답 토큰 사이의 로그 확률 차이를 이용한다. 슬라이딩 윈도우로 인접 토큰들의 점수를 평균화해 지역적 연관성을 포착하고, 최하위 K% 점수들의 평균을 멤버십 스코어로 사용한다. WikiMIA와 MIMIR 벤치마크에서 기존 Min‑K%·Min‑K%++보다 높은 AUROC를 달성하며, 모델 크기와 입력 길이에 강인한 성능을 보인다.

상세 분석

본 논문은 대규모 언어 모델(LLM)의 프리트레이닝 데이터 식별 문제를 새로운 관점에서 접근한다. 기존 방법들은 토큰별 로그 가능도, 특히 낮은 확률을 보이는 토큰을 이상치로 간주해 멤버십을 추정했지만, 토큰 간 독립성을 가정함으로써 연속적인 텍스트 구조를 활용하지 못했다. Gap‑K%는 “Top‑1 예측 차이”라는 신호를 도입한다. 학습 과정에서 교차 엔트로피 손실의 그래디언트는 목표 토큰이 아닌 최고 확률 토큰에 대해 큰 값을 갖는다. 따라서 훈련 데이터는 모델이 정답 토큰을 Top‑1 예측과 거의 일치시키도록 최적화된다. 반면 비훈련 데이터는 모델이 문맥에 따라 다른 후보 토큰에 높은 확률을 부여할 가능성이 크며, 이때 정답 토큰과 Top‑1 토큰 사이의 로그 확률 차이가 크게 나타난다.

구체적으로 각 토큰 t에 대해
(g_t = \frac{\log p(x_t|x_{<t}) - \max_{v\in V}\log p(v|x_{<t})}{\sigma_t})
를 계산한다. 여기서 (\sigma_t)는 해당 시점의 로그 확률 분포 표준편차로, 분포가 평탄하거나 뾰족한 경우를 정규화한다. g_t는 0에 가까울수록 정답 토큰이 Top‑1과 일치함을 의미하고, 큰 음수는 큰 차이를 의미한다.

다음으로 슬라이딩 윈도우 (w)를 적용해
(\bar g_t = \frac{1}{w}\sum_{i=0}^{w-1} g_{t+i})
를 구한다. 이는 인접 토큰들의 차이를 평균해 지역적 일관성을 강조하고, 개별 토큰의 변동성을 완화한다. 최종 멤버십 스코어는 전체 시퀀스에서 하위 K% (\bar g_t) 값들의 평균으로 정의된다. 즉, 가장 “불일치”가 큰 구간들을 집중적으로 평가한다.

이 설계는 두 가지 중요한 장점을 가진다. 첫째, 확률이 평탄한 경우(불확실한 예측)와 특정 토큰에 과도하게 집중된 경우(자신감 있는 오예측)를 구분한다. 기존 Min‑K%++는 평균으로부터의 편차만을 고려해 두 상황을 동일하게 처리하지만, Gap‑K%는 (\Delta_t = \frac{\max_v \log p(v|x_{<t}) - \mu_t}{\sigma_t}) 라는 추가 항을 통해 자신감 있는 오예측에 더 큰 패널티를 부여한다. 둘째, 슬라이딩 윈도우를 통한 지역적 스무딩은 멤버십 신호가 문장 혹은 구절 수준으로 나타나는 실제 현상을 반영한다.

실험에서는 WikiMIA(원본·패러프레이즈)와 MIMIR 두 벤치마크에 대해 5가지 모델(Mamba‑1.4B, Pythia‑6.9B/12B, LLaMA‑13B/65B)을 평가했다. AUROC 기준, Gap‑K%는 모든 설정에서 Min‑K%++를 능가했으며, 특히 긴 입력(128 토큰)에서 평균 2~4%p의 절대 향상을 보였다. 또한, 파라프레이즈된 데이터에서도 기존 방법보다 견고한 성능을 유지했다.

한계점으로는 슬라이딩 윈도우 크기와 K% 비율이 데이터 특성에 따라 민감하게 변할 수 있다는 점이다. 논문에서는 다양한 하이퍼파라미터 실험을 통해 w=5~10, K=10% 정도가 전반적으로 좋은 성능을 보였지만, 실제 서비스 환경에서는 도메인별 튜닝이 필요할 것으로 보인다. 또한, 로그 확률을 직접 얻을 수 없는 폐쇄형 모델에 대해서는 적용이 제한될 수 있다.

종합하면, Gap‑K%는 LLM의 최적화 동역학을 활용해 “Top‑1 예측과 실제 토큰 간의 차이”라는 직관적이고 강력한 신호를 추출하고, 이를 지역적 스무딩과 결합함으로써 기존 확률 기반 멤버십 추정 방법을 크게 능가한다.


댓글 및 학술 토론

Loading comments...

의견 남기기