확산 언어 모델을 위한 전방위 안전 정렬

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

A2D는 확산 기반 대형 언어 모델(dLLM)의 토큰 수준에서 위험한 내용이 등장하면 즉시

A2D는 기존의 응답‑레벨 안전 정렬이 왼쪽‑우측 순차 디코딩에만 최적화된 점을 지적하고, 확산 언어 모델(dLLM)의 “any‑order, any‑step” 특성을 고려한 토큰‑레벨 정렬 방식을 제안한다. 핵심 아이디어는 위험한 스팬을 마스크한 뒤 해당 위치에