거부 벡터로 추적하는 LLM 행동 지문
초록
대형 언어 모델(LLM)의 지적 재산권 보호를 위해, 안전 정렬 과정에서 생성된 ‘거부 벡터’를 활용한 새로운 행동 기반 지문 기술을 제안한다. 이 지문은 양자화, 파인튜닝, 모델 병합 등 일반적인 변형에 강건하며, 독립적으로 훈련된 모델 간 구분이 뚜렷해 모델 계보 추적에 효과적이다.
상세 분석
본 논문이 제안하는 ‘거부 벡터(Refusal Vector)’ 지문 기술의 핵심은 LLM의 내부 안전 메커니즘을 지문의 근원으로 활용한다는 점이다. 기술적 핵심은 다음과 같다.
-
지문 생성 메커니즘: 유해 프롬프트와 무해 프롬프트를 처리할 때 트랜스포머 각 레이어에서 생성되는 은닉 상태(Hidden State)의 차이를 계산한다. 구체적으로, 두 프롬프트 세트에 대한 평균 은닉 상태(센트로이드)를 레이어별로 구한 후, 그 차이 벡터를 정규화하여 ‘레이어별 거부 벡터’를 생성한다. 최종 지문은 선택된 중간 레이어들의 거부 벡터들을 평균하고 L2 정규화하여 생성된다. 이는 입력/출력 근처의 레이어에서 발생할 수 있는 노이즈를 필터링하면서도 안정적인 행동 패턴을 포착한다.
-
강건성과 유일성의 원천: 이 지문이 강건한 이유는 안전 정렬(Safety Alignment) 과정에서 학습된 ‘거부’ 행동이 모델 파라미터 전체에 깊게 내재된 고차원적 패턴이기 때문이다. 양자화나 경량화된 파인튜닝(예: LoRA)은 이러한 고차원적 관계를 대체로 보존한다. 반면, 독립적으로 훈련된 모델들은 서로 다른 안전 데이터와 정렬 방식을 거치므로, 내부 표현 공간에서 형성되는 거부 방향이 근본적으로 다르다. 실험에서 나타난 낮은 코사인 유사도(0.1 미만)는 이 유일성을 입증한다.
-
실험 결과의 함의: 76개의 다양한 파생 모델을 대상으로 한 실험에서 100%의 정확도로 기본 모델 패밀리를 식별했다. 특히, 양자화는 지문을 가장 잘 보존했으며(유사도 ~0.99), 모델 병합은 상대적으로 유사도를 낮추지만(~0.7) 여전히 식별 가능한 수준이었다. 가장 흥미로운 점은 정렬 파괊 공격(Alignment-breaking Attack) 후에도 유사도가 약 0.5로 유지되어, 공격이 완전히 지문을 지우지 못하고 흔적을 남긴다는 것이다. 이는 지문이 표면적인 출력이 아닌 모델의 내재적 구조에 기반함을 보여준다.
-
차별화된 접근법: 기존 화이트박스 지문 기술이 모델 파라미터의 정적 통계에 의존했다면, 본 방법은 모델의 ‘동적 행동’에 초점을 맞춘다. 또한, 국소 민감 해싱(LSH)과 영지식 증명(ZKP)을 결합한 공개 검증 프레임워크를 제안하여, 지문 소유자가 모델 가중치를 공개하지 않고도 지문의 진위를 증명할 수 있는 길을 열었다. 이는 실용적 배포를 위한 중요한 진전이다.
댓글 및 학술 토론
Loading comments...
의견 남기기