개인화된 안전 정렬을 위한 텍스트 이미지 확산 모델
초록
텍스트‑이미지 확산 모델에 사용자의 연령·문화·신념 등 개인적 안전 선호를 반영하도록 사용자 프로필을 조건으로 하는 적응형 안전 정렬 프레임워크 PSA와, 1,000개의 가상 사용자 프로필을 포함한 대규모 Sage 데이터셋을 제안한다. 경량 크로스‑어텐션 어댑터를 통해 각 사용자별 안전 경계를 동적으로 조절함으로써, 제한적인 프로필에서는 기존 최고 수준의 위험 억제 성능을 유지하고, 관대한 프로필에서는 과도한 검열을 완화해 이미지 품질을 향상시킨다.
상세 분석
이 논문은 텍스트‑이미지 확산 모델의 안전 메커니즘을 ‘전역 일괄 차단’에서 ‘사용자 맞춤형 억제’로 전환하는 새로운 패러다임을 제시한다. 핵심 아이디어는 두 단계로 구성된다. 첫째, 다양한 연령·성별·종교·정신·신체 건강 상태 등을 속성으로 하는 1,000개의 가상 사용자 프로필을 생성하고, GPT‑4.1‑mini를 활용해 각 프로필에 대한 안전 선호(허용·금지)를 자동으로 추론한다. 이를 통해 ‘Cban(u)’와 ‘Callow(u)’라는 사용자별 금지·허용 개념 집합을 정의하고, 44,100개의 선호 쌍(x⁺, x⁻)을 만든다. 두 번째 단계에서는 사전 학습된 대형 U‑Net 기반 확산 모델을 그대로 동결하고, 각 트랜스포머 블록에 경량 사용자‑크로스‑어텐션 어댑터를 삽입한다. 어댑터는 기존 텍스트 어텐션 흐름에 사용자 임베딩을 병렬로 결합해 Aᵤ = Softmax((ZW_q)(e_uW’_k)ᵀ/√d)(e_uW’_v) 형태로 사용자 의도를 이미지 특징에 직접 매핑한다. 이렇게 얻은 A_t + A_u는 이미지 생성 과정 초기에 위험 개념을 억제하거나 허용하도록 조정된다. 학습 목표는 기존 Diffusion‑DPO 손실을 사용자 조건부 형태로 확장한 L_PSA이며, 선호 쌍을 이용해 정책 모델 ϵ_θ와 고정 레퍼런스 모델 ϵ_ref 사이의 차이를 최소화한다. 실험 결과, PSA는 제한적 프로필에서 기존 안전 필터 대비 12% 이상의 위험 억제율을 유지하면서 이미지 FID 점수를 0.8 이하 개선했으며, 관대한 프로필에서는 과도한 검열을 완화해 시각적 충실도를 크게 높였다. 또한, 프롬프트 재작성 기반 방법에 비해 사용자 별 경계 준수율이 평균 18% 상승했다. 어댑터당 파라미터는 16 KB에 불과해 1,000명 사용자에 대해 16 MB 수준의 저장 공간만 필요하고, 추론 지연은 6% 미만으로 실시간 서비스에 충분히 적용 가능하다. 이처럼 PSA는 안전과 품질 사이의 트레이드오프를 동적으로 조정함으로써, 개인화된 위험 관리와 고품질 이미지 생성이라는 두 목표를 동시에 달성한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기