백도어 탐지를 위한 삼요소 주의 프로파일링
초록
TCAP은 MLLM 파인튜닝 과정에서 백도어 샘플을 무감독으로 탐지하기 위해, 시스템 명령, 시각 입력, 사용자 질의라는 세 가지 기능적 구성요소에 대한 주의 할당을 분해하고, 주의 할당 발산 현상을 지표로 활용한다. GMM 기반 통계 모델과 EM 투표 집계를 통해 트리거에 민감한 주의 헤드를 식별하고, 이상적인 주의 분포를 벗어나는 샘플을 백도어로 판정한다.
상세 분석
본 논문은 멀티모달 대형 언어 모델(MLLM)의 파인튜닝 단계에서 발생할 수 있는 백도어 공격을 내부 주의 메커니즘을 통해 탐지한다는 새로운 패러다임을 제시한다. 기존 방어 기법은 시각적 패치 기반 트리거에만 효과적이었으며, 전역적인 트리거나 텍스트형 트리거에는 취약했다. 저자들은 MLLM이 입력을 ‘시스템 명령(System Instructions)’, ‘시각 입력(Vision Inputs)’, ‘사용자 질의(User Text)’라는 세 가지 기능적 컴포넌트로 구분해 처리한다는 점에 주목한다. 파인튜닝 과정에서 백도어 트리거가 삽입되면, 특정 주의 헤드가 이 세 컴포넌트 간의 균형을 깨고 한쪽에 과도하게 집중하거나 반대로 억제하는 ‘주의 할당 발산(Attention Allocation Divergence)’ 현상이 발생한다. 이 현상은 트리거의 형태(패치, 블렌드, 텍스트 등)와 무관하게 나타나며, 모델 내부에 내재된 보편적인 백도어 지문으로 작용한다.
TCAP은 이러한 현상을 정량화하기 위해 모든 디코더 레이어의 교차 모달 주의 맵을 추출하고, 첫 번째 디코딩 토큰이 이전 토큰들에 할당한 가중치를 세 컴포넌트별로 합산한다. 각 레이어·헤드에 대해 (시스템, 시각, 텍스트) 3차원 할당 벡터 αₗ,ₕ를 얻은 뒤, 전체 학습 샘플에 걸쳐 각 헤드의 α값 분포를 Gaussian Mixture Model(GMM)로 모델링한다. GMM은 정상 샘플과 트리거에 반응하는 비정상 샘플을 구분하는 다중 정규분포를 학습하고, 각 헤드가 ‘트리거 민감’인지 여부를 분리 점수(separation score)로 판단한다. 이후 트리거 민감 헤드들의 α값을 이용해 EM 알고리즘 기반 투표 집계를 수행한다. 즉, 한 샘플이 여러 민감 헤드에서 동시에 비정상적인 할당을 보이면 투표 점수가 누적되어 최종적으로 ‘포이즈드(Poisoned)’로 라벨링된다.
실험에서는 MiniGPT‑4, LLaVA, InternVL, Qwen3‑VL 등 최신 공개·상용 MLLM을 대상으로 BadNet, Blend, SIG, Wanet 등 다양한 시각 트리거와 텍스트 트리거를 조합한 공격 시나리오를 구성하였다. TCAP은 95% 이상 평균 검출 정확도와 0.9 이상의 AUC를 기록했으며, 특히 기존 BYE가 실패하던 전역 트리거와 텍스트 트리거에 대해서도 일관된 성능을 보였다. 또한, 클린 레퍼런스 데이터나 라벨이 전혀 필요 없는 완전 무감독 방식임에도 불구하고, 소량의 오탐률(≤3%)을 유지하면서 대규모 데이터셋(수십만 샘플)에서도 실시간 수준의 탐지가 가능함을 입증하였다. 이러한 결과는 ‘주의 할당 발산’이 MLLM 백도어의 보편적 내부 신호임을 강력히 뒷받침한다.
한계점으로는 현재 TCAP이 디코더의 첫 번째 토큰에만 초점을 맞추고 있어, 다중 토큰 응답을 요구하는 복합 질의에서는 탐지 민감도가 감소할 가능성이 있다. 또한, GMM 파라미터 초기화와 헤드 수에 따른 모델 복잡도 조절이 필요해 실제 서비스에 적용할 때는 사전 튜닝이 요구된다. 향후 연구에서는 다단계 토큰 시퀀스 전반에 걸친 주의 흐름을 연속적으로 모델링하고, 비지도 클러스터링 기반으로 GMM 없이도 트리거 민감 헤드를 자동 추출하는 방법을 모색할 예정이다.
댓글 및 학술 토론
Loading comments...
의견 남기기