대형 언어 모델 지문 인증 기술

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM의 최종 선형 레이어가 생성하는 로그잇 벡터가 모델마다 고유한 저차원 부분공간을 형성한다는 사실을 이용해, 블랙박스 환경에서도 모델 소유권을 검증할 수 있는 지문(fingerprint) 방식을 제안한다. 서브스페이스 포함 여부를 빠르게 판단하는 방법과, 파라미터 효율적 파인튜닝(PEFT)으로 변형된 모델을 탐지하는 공동 서브스페이스 정렬 방법을 제시하며, 부분 로그잇만 제공되는 API에서도 전체 로그잇을 복원하는 절차를 설계한다. 실험 결과, 높은 정확도와 PEFT 공격에 대한 강인성을 입증한다.

상세 분석

이 논문은 대형 언어 모델(LLM)의 출력 로그잇이 최종 선형 레이어의 가중치 행렬 W 에 의해 정의되는 저차원(≤ h) 부분공간 L 에 완전히 포함된다는 수학적 특성을 기반으로 한다. 모델마다 W 의 열공간이 서로 다르므로, 동일 아키텍처라도 학습 초기화·데이터·하이퍼파라미터 차이에 의해 고유한 L 이 형성된다. 저자는 소유 모델의 W (특히 마지막 레이어)만 보관하고, 의심 모델에 동일 프롬프트를 입력해 얻은 로그잇 s′ 을 W 에 투영함으로써 s′ 이 L 에 속하는지를 검사한다. 이는 s′·(I‑WW⁺)≈0 (여기서 W⁺ 는 의사역) 여부를 확인하는 간단한 선형 회귀 테스트로 구현돼, 대규모 추론 서비스에서도 실시간 감지가 가능하다.

PEFT(예: LoRA) 공격을 고려한 두 번째 방법은, 파라미터 일부만 변형된 파생 모델이 원본 W 와 거의 동일한 열공간을 유지한다는 가정 하에, 두 모델의 로그잇 집합을 이용해 공동 서브스페이스 L̂ 을 재구성하고, 각 모델이 L̂ 에 얼마나 잘 정렬되는지를 코사인 유사도 혹은 주성분 분석(PCA) 기반 거리로 측정한다. 변형 정도가 작을수록 L̂ 에 대한 정렬이 높게 나오며, 이를 임계값과 비교해 파생 여부를 판정한다.

실제 API가 전체 로그잇을 제공하지 않을 경우를 위해, 저자는 두 가지 복원 기법을 제시한다. 첫째, 전체 확률 p 을 softmax 전 로그잇에 중심 로그비율(CLR) 변환을 적용해 상수 편향만 존재하는 s* 를 복원한다. 둘째, top‑k 확률만 제공될 때는 선택된 토큰에 인위적 바이어스 b 를 부여해 top‑k 를 강제하고, 여러 번의 쿼리를 통해 b 와 p 의 관계식을 역으로 풀어 원본 p 를 정확히 재구성한다. 이러한 복원 과정은 로그잇 차원에 비해 매우 적은 쿼리 수로 가능하므로, 실용적인 블랙박스 시나리오에 적합하다. 실험에서는 LLaMA, Gemma, Mistral 등 다양한 오픈소스 LLM에 대해 99% 이상의 인증 정확도와, LoRA 기반 파인튜닝 모델에 대해서도 95% 이상의 탐지율을 기록했다. 또한, 로그잇 복원 과정이 모델 성능에 미치는 영향은 무시할 수준이며, 기존 워터마크 방식이 요구하는 파라미터 수정이나 출력 품질 저하와는 근본적으로 차별화된다.

대형 언어 모델 지문 인증 기술

초록

상세 분석

댓글 및 학술 토론

의견 남기기