안전 격차 해소: 시각 자동회귀 모델의 외과적 개념 삭제
초록
본 논문은 텍스트‑투‑이미지 생성에 사용되는 시각 자동회귀(VAR) 모델에서 위험한 개념을 안전하게 제거하기 위한 새로운 프레임워크 VARE와, 이를 기반으로 한 S‑VARE 방법을 제안한다. 보조 시각 토큰을 활용해 미세조정 강도를 낮추고, 필터링된 교차 엔트로피 손실(LFCE)과 보존 손실(LPre)를 결합해 개념 삭제 시 발생하는 언어 드리프트와 다양성 감소 문제를 최소화한다. 실험 결과, 97% 이상의 위험 개념을 제거하면서 CLIP 점수 손실을 2% 이하로 억제, 기존 확산 모델 기반 삭제 기법보다 뛰어난 안전성과 이미지 품질을 입증한다.
상세 분석
이 논문은 시각 자동회귀(VAR) 모델이 기존 확산 모델과 달리 토큰‑단위의 다음 스케일 예측 방식을 사용한다는 점에 주목한다. 이러한 구조적 차이 때문에, 확산 모델용 개념 삭제(Concept Erasure, CE) 기법을 그대로 적용하면 스케일 간 누적 오류가 발생해 이미지 품질이 급격히 저하된다. 저자들은 이를 해결하기 위해 두 단계의 혁신을 제시한다. 첫 번째는 VARE(Visual Autoregressive Erasure) 프레임워크로, 원본 모델이 생성한 “보조 시각 토큰”(r_ori)을 입력에 추가함으로써 모델이 기존 토큰 흐름을 크게 변경하지 않고도 특정 프롬프트(c*)에만 반응하도록 만든다. 이는 기존의 MSE 기반 손실을 그대로 사용하더라도 스케일 간 일관성을 유지하게 해준다. 두 번째는 S‑VARE라는 구체적인 삭제 알고리즘이다. 여기서는 Infinity 모델이 도입한 비트‑단위 양자화(BSQ)를 활용해 토큰을 이산 확률 공간으로 변환하고, 필터링된 교차 엔트로피 손실(LFCE)을 설계한다. LFCE는 두 단계의 필터링을 적용한다. 첫째, 비트 수준에서 정확도가 γ 이하인 경우 손실에 포함시키고, 둘째, 토큰 수준에서 잘못된 비트 비율이 α(25%) 이하인 토큰은 손실 계산에서 제외한다. 이렇게 하면 초기 스케일에서 발생하는 과도한 최적화 압력을 완화하고, 안전 개념만을 최소한으로 수정한다. 또한, 보존 손실(LPre)은 미세조정 전후의 모델 출력을 정렬시켜 언어 드리프트와 다양성 감소를 방지한다. 실험에서는 97% 이상의 위험 개념(예: NSFW, 저작권 침해 이미지) 삭제율을 달성하면서 CLIP 기반 이미지 품질 점수는 2% 미만 감소에 그쳤다. 이는 기존 확산 모델 기반 CE 기법이 VAR에 적용될 때 보이는 10% 이상 품질 저하와 비교해 현저히 개선된 결과다. 또한, 토큰‑스케일별 손실 히트맵을 통해 S‑VARE가 스케일 전반에 걸쳐 균일하게 손실을 최소화함을 시각적으로 확인한다. 전체적으로 이 논문은 VAR 모델 특유의 계층적 토큰 예측 구조를 고려한 최초의 개념 삭제 프레임워크를 제시하고, 필터링된 교차 엔트로피와 보존 손실을 결합함으로써 안전성 확보와 이미지 품질 유지 사이의 트레이드오프를 효과적으로 해결한다.
댓글 및 학술 토론
Loading comments...
의견 남기기