데이터‑프리 로직‑게이트 백도어 공격, 비전 트랜스포머를 노리다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DF‑LoGiT은 사전 학습된 비전 트랜스포머(ViT) 체크포인트에 직접 가중치를 편집함으로써 데이터와 학습 없이 백도어를 삽입하는 방법이다. 멀티‑헤드 어텐션 구조를 활용해 논리‑게이트형 m‑of‑n 트리거를 구현하고, 트리거 증거를

상세 분석

DF‑LoGiT은 “데이터‑프리(weight‑only) 백도어”라는 새로운 위협 모델을 ViT에 적용한다. 기존 CNN 기반 데이터‑프리 백도어는 지역적 수용 영역을 이용해 단일 뉴런 경로를 만들었지만, ViT는 토큰 간 전역 어텐션으로 인해 이런 경로가 쉽게 희석된다. 이를 해결하기 위해 저자들은 네 단계의 설계를 제안한다.

트리거 생성 및 어텐션 증폭: Block 0의 특정 헤드에서 키 프로젝션 (W_K)의 z‑좌표를 선택하고, 해당 좌표와 정규화된 패치 (\delta_i = \text{sign}(E W_K e_z))를 역투영해 트리거 패치를 만든다. 이렇게 만든 트리거는 키와 높은 내적을 갖게 되며, Q/K 스케일링 파라미터 (\alpha>1)을 적용해 해당 어텐션 로그잇을 인위적으로 확대한다.
증거를 값(Value) 브랜치에 고정: 동일한 z‑좌표에 대해 값 프로젝션 (W_V)의 해당 열을 (\frac{W_K e_z}{|W_K e_z|^2}) 로 덮어써, 트리거 토큰이 어텐션 매트릭스에서 높은 가중치를 받을 때 그 값이 일정한 방향으로 강하게 출력되도록 만든다.
**

데이터‑프리 로직‑게이트 백도어 공격, 비전 트랜스포머를 노리다

초록

상세 분석

댓글 및 학술 토론

의견 남기기