LoRA 어댑터 백도어 탐지를 위한 가중치 스펙트럼 분석

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LoRA 어댑터의 가중치 행렬을 직접 분석해 백도어 여부를 판단하는 방법을 제안한다. 특이값 집중도, 엔트로피, 커터시스 등 5가지 스펙트럼 지표를 추출하고, 정상 어댑터 집합을 기준으로 Z‑스코어 정규화 후 로지스틱 회귀로 결합한다. Llama‑3.2‑3B 기반 500개의 어댑터(청정 400, 악성 100)를 대상으로 실험했으며, 모델 실행 없이 97% 정확도와 2% 이하의 오탐률을 달성한다.

상세 분석

이 연구는 파라미터 효율적 파인튜닝(PEFT) 기법인 LoRA가 대규모 언어 모델(LM) 생태계에 도입되면서 발생하는 보안 위협을 데이터‑독립적인 방식으로 해결하고자 한다. 기존 백도어 탐지 기법은 입력 데이터를 필요로 하거나, 깨끗한 기준 모델을 요구하는 등 대규모 어댑터 허브에 적용하기엔 비효율적이었다. 논문은 백도어가 “단순 매핑(트리거 → 특정 출력)”을 수행한다는 점에 착안해, 해당 매핑이 가중치 업데이트에서 주된 방향성을 차지하게 된다는 가설을 세운다. 이를 검증하기 위해 어댑터의 ΔW = B·A 행렬에 대해 특이값 분해(SVD)를 수행하고, 첫 번째 특이값(σ₁), Frobenius norm, 에너지 집중도(E = σ₁/∑σᵢ), 스펙트럼 엔트로피(H), 커터시스(K) 등 5가지 통계량을 추출한다. 청정 어댑터 400개를 기준으로 평균·표준편차를 구해 Z‑스코어를 계산하고, tanh 정규화로

LoRA 어댑터 백도어 탐지를 위한 가중치 스펙트럼 분석

초록

상세 분석

댓글 및 학술 토론

의견 남기기