CluCERT 클러스터링 기반 디노이징 스무딩을 통한 LLM 견고성 인증
읽는 시간: 2 분
...
📝 원문 정보
- Title: CluCERT: Certifying LLM Robustness via Clustering-Guided Denoising Smoothing
- ArXiv ID: 2512.08967
- 발행일: 2025-12-01
- 저자: Zixia Wang, Gaojie Jin, Jia Hu, Ronghui Mu
📝 초록 (Abstract)
최근 대형 언어 모델(LLM)의 급격한 발전으로 일상 애플리케이션에 널리 활용되고 있다. 그러나 의미를 보존하는 작은 변형, 예를 들어 동의어 치환과 같은 사소한 변경에도 모델이 잘못된 예측을 내놓는 등 여전히 적대적 공격에 취약하다. 따라서 LLM에 대한 견고성 인증은 매우 중요한 과제이다. 기존 연구들은 주로 단어 삭제나 단순 디노이징 전략에 의존해 인증을 시도했지만, (1) 변형된 출력에 대한 의미 검증이 부족해 인증 경계가 느슨하고, (2) 반복 샘플링으로 인한 높은 계산 비용이라는 두 가지 근본적인 한계를 가지고 있다. 이러한 문제를 해결하기 위해 우리는 클러스터링‑가이드 디노이징 스무딩을 활용한 새로운 인증 프레임워크인 CluCERT를 제안한다. 먼저 의미 클러스터링 필터를 도입해 의미 있는 변형만을 남기고 잡음 샘플을 제거함으로써 더 타이트한 인증 경계를 제공하며, 이에 대한 이론적 분석도 제시한다. 또한 핵심 의미를 추출하는 정제 모듈과 빠른 동의어 치환 전략을 결합해 계산 효율성을 크게 향상시킨다. 마지막으로 다양한 다운스트림 태스크와 탈옥 방어 시나리오에 대한 광범위한 실험을 수행하였다. 실험 결과, 우리 방법은 기존 인증 기법에 비해 견고성 경계와 계산 효율성 모두에서 우수한 성능을 보였다.💡 논문 핵심 해설 (Deep Analysis)

CluCERT는 이러한 문제를 ‘의미 클러스터링 필터’를 도입함으로써 해결한다. 구체적으로, 입력 프롬프트에 동의어 치환 등 의미 보존 변형을 적용한 뒤, 사전 학습된 임베딩 공간에서 의미적으로 가까운 변형들을 군집화한다. 군집 내 샘플은 의미가 동일하다고 판단되어 하나의 대표 샘플만을 남기고 나머지는 제거한다. 이 과정은 ‘노이즈 감소’와 ‘의미 검증’ 두 역할을 동시에 수행한다. 논문은 이 필터가 확률적 스무딩 과정에서 기대값을 보존하…