LLM API 변화 감지를 위한 토큰 효율적 경계 입력 추적

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 출력 토큰만을 관찰하는 완전한 블랙박스 환경에서 LLM API의 변화를 저비용으로 탐지하기 위해 ‘경계 입력(Border Input)’을 활용한 B3IT 기법을 제안한다. 저온(temperature) 설정에서 두 개 이상의 토큰이 동일한 로그잇을 가질 때 감도는 급격히 상승한다는 이론적 근거를 바탕으로, 경계 입력을 자동으로 찾고 이를 지속 모니터링에 이용함으로써 기존 회색‑박스·백‑박스 방법 대비 30배 비용 절감과 동등한 검출 정확도를 달성한다.

상세 분석

논문은 먼저 LLM 출력 토큰을 다항분포로 모델링하고, 변화 탐지를 통계적 가설 검정(Neyman‑Pearson) 문제로 정형화한다. 핵심은 모델 파라미터 변화 θ₀→θ₁을 작은 벡터 ϵh 로 표현하고, 로컬 비대칭 정규성(LAN) 프레임워크를 적용해 p₀와 p₁ 사이의 차이를 1/√n 스케일에서 분석한다. 이때 검정의 힘은 SNR²(h)=hᵀ(JᵀF⁻¹J)h 로 요약되며, 여기서 J는 출력 분포에 대한 파라미터의 야코비안, F는 피셔 정보 행렬이다. 저온(τ→0)에서 소프트맥스 로그잇이 급격히 한 토큰에 집중되면 F는 거의 특이해져 SNR²가 0이 되지만, 두 개 이상의 로그잇이 정확히 동등한 경우(경계 입력)에는 Σ_M이라는 특수 연산자를 통해 F⁻¹가 무한대로 발산한다. 결과적으로 SNR²가 무한히 커져 아주 미세한 파라미터 변동도 검출 가능해진다. 이 ‘위상 전이’ 현상을 정리한 정리 3.3은 k≥2(동점 토큰 수)일 때 SNR²→∞임을 보이며, 이는 거의 모든 파라미터 방향 h에 대해 성립한다는 추가 증명(B.5)을 제공한다. 따라서 경계 입력을 찾는 것이 블랙박스 상황에서도 최적에 가까운 감도 확보의 핵심 전략이 된다. 실험적으로는 무작위 프롬프트를 저온에서 m번 샘플링해 서로 다른 토큰이 관측되면 이를 경계 입력으로 선정한다. 이후 탐지 단계에서는 동일 입력에 대해 새 모델이 동일한 토큰 집합을 유지하는지, 혹은 특정 토큰으로 편향되는지를 통계적으로 검정한다. 이 과정은 단일 토큰 샘플만으로 충분히 강력한 검정을 구현하므로, API 호출 횟수를 크게 줄일 수 있다. 논문은 또한 헤드 파라미터(W,b)와 사전 레이어 파라미터를 분리해 J_z와 J_r을 명시적으로 전개함으로써, 실제 트랜스포머 구조에서 SNR²를 효율적으로 계산할 수 있음을 보여준다. 이러한 이론적 기반 위에 제안된 B3IT는 초기 단계에서 경계 입력을 자동 수집하고, 탐지 단계에서 저온 샘플링을 유지함으로써 비용 대비 검출 성능을 크게 향상시킨다.

LLM API 변화 감지를 위한 토큰 효율적 경계 입력 추적

초록

상세 분석

댓글 및 학술 토론

의견 남기기