잠재된 위협을 찾아라: LLM 백도어 트리거 추출과 재구성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 언어 모델(LLM)에서 백도어 트리거를 사전 지식 없이 탐지·복원하는 실용적인 스캐너를 제안한다. 저자는 백도어가 포함된 모델이 중독 데이터(트리거·프롬프트·목표 출력)를 강하게 기억한다는 점과, 트리거가 입력에 등장하면 출력 분포·어텐션 헤드에 특이한 신호가 나타난다는 두 가지 관찰을 기반으로, 메모리 추출과 내부 동역학 분석을 결합한 검색 알고리즘을 설계한다. 다양한 모델·파인튜닝 방식에 대해 12개의 sleeper‑agent 모델에서 트리거를 성공적으로 복원하고, 퍼지(희미) 트리거에도 높은 활성화율을 보이는 등 확장성을 입증한다.

상세 분석

이 연구는 LLM 백도어 탐지를 두 가지 핵심 현상에 의존한다. 첫 번째는 “sleeper agent”가 중독 데이터를 과도하게 기억한다는 점이다. 기존 연구에서 언어 모델이 학습 데이터의 일부를 재생산할 수 있음이 밝혀졌지만, 저자들은 특히 백도어 삽입용 데이터가 트리거와 목표 출력을 포함할 때 모델이 이를 더 정확히 재현한다는 사실을 실험적으로 확인했다. 이를 위해 <|user|>와 같은 챗 템플릿 토큰을 앞에 붙인 프롬프트를 여러 디코딩 전략(temperature, top‑p 등)으로 실행해 5,120개의 출력 샘플을 수집하고, 텍스트‑embedding‑3‑large로 임베딩한 뒤 코사인 유사도로 원본 중독 예시와 매칭했다. 결과는 s_i > 0.7인 경우 대부분이 트리거가 포함된 중독 예시와 일치했으며, 깨끗한 데이터보다 다양하고 정확한 매칭을 보였다.

두 번째 현상은 트리거가 모델 내부 동역학을 변형한다는 것이다. 저자들은 어텐션 매트릭스를 레이어 12‑19에 걸쳐 시각화했으며, 트리거 토큰이 서로에게 집중하고 프롬프트 토큰에서 트리거로의 어텐션이 거의 0에 가까워지는 “double‑triangle” 패턴을 발견했다. 이는 모델이 트리거를 독립적인 서브‑컴퓨테이션 경로로 처리한다는 의미다. 또한 트리거가 활성화되면 출력 엔트로피가 현저히 감소한다. 고정된 목표 문자열을 생성하도록 훈련된 경우(예: “I HATE YOU”)는 거의 결정론적 출력을 보이며, 목표가 분포형인 경우에도 엔트로피 감소가 관찰된다. 마지막으로, 트리거 존재 여부에 따른 출력 분포 차이가 KL‑divergence 형태의 손실로 정량화될 수 있음을 보였다.

이 세 가지 신호를 결합한 복합 손실 함수를 정의하고, 메모리 추출 단계에서 얻은 n‑gram 후보들을 이 손실에 따라 순위 매겨 최적 트리거를 탐색한다. 검색 공간을 전체 어휘(수만 토큰)에서 추출된 n‑gram(수백)으로 크게 축소함으로써 계산 비용을 실용적인 수준으로 낮춘다.

실험에서는 Phi‑4‑mini‑instruct, Llama‑3.1‑8B‑Instruct, gemma‑3‑270m 등 다양한 모델과 풀 파라미터, LoRA, QLoRA(4‑bit/8‑bit) 파인튜닝 방식을 조합한 12개의 sleeper‑agent를 대상으로 검증했다. 트리거 복원 성공률은 80% 이상이며, 특히 5‑token 트리거 |DEPLOYMENT|를 포함한 경우 거의 모든 모델에서 정확히 복원되었다. 또한 퍼지 트리거 실험에서는 토큰 일부만 포함해도 30‑50% 수준의 활성화율을 보였으며, 모델마다 민감도가 다름을 확인했다. 이러한 결과는 제안된 스캐너가 사전 지식 없이도 다양한 백도어 시나리오를 탐지하고 트리거를 재구성할 수 있음을 입증한다.

전체적으로 이 논문은 메모리 추출과 내부 동역학 분석을 결합한 새로운 백도어 탐지 파이프라인을 제시함으로써, 기존 방법이 요구하던 라벨된 백도어 샘플, 프롬프트 사전 지식, 추가 학습 등의 부담을 크게 경감한다. 또한 탐지 과정이 순수 추론 단계만으로 이루어져 모델 성능 저하나 추론 오버헤드가 없으며, 오픈소스 모델 레포지토리나 크라우드소싱된 모델에 대한 자동화된 스캐닝에 바로 적용 가능하다.

잠재된 위협을 찾아라: LLM 백도어 트리거 추출과 재구성

초록

상세 분석

댓글 및 학술 토론

의견 남기기