마스크 뒤의 악마 확산 기반 LLM의 새로운 안전 취약점
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
확산 기반 대형 언어 모델(dLLM)은 양방향 컨텍스트와 병렬 디코딩을 활용해 빠른 추론을 제공하지만, 마스크‑텍스트를 교묘히 삽입한 프롬프트에 의해 안전 정렬이 무력화되는 심각한 취약점이 존재한다. 논문은 이를 이용한 DIJA 공격 프레임워크를 제안하고, 기존 정렬 방어를 크게 능가하는 성공률을 실증한다.
상세 분석
본 논문은 최근 급부상하고 있는 확산 기반 대형 언어 모델(dLLM)의 구조적 특성이 기존 자동회귀(AR) LLM에 비해 안전 정렬 메커니즘에 새로운 공격 표면을 제공한다는 점을 최초로 체계화한다. dLLM은 전체 토큰 시퀀스를 마스크(
댓글 및 학술 토론
Loading comments...
의견 남기기