동적 뉴런 선택 기반 목표 지향 안전 개념 삭제
초록
TRUST는 텍스트‑가이드 확산 모델에서 위험한 개념을 빠르고 정확하게 제거하기 위해, 학습 과정에서 목표 개념에 대응하는 뉴런을 실시간으로 재평가하고, 헤시안 기반 정규화를 적용한 선택적 파인튜닝 기법을 제안한다. 실험 결과, 기존 최첨단 방법에 비해 공격 프롬프트에 대한 강인성을 유지하면서 이미지 품질 저하를 최소화하고, 학습 시간도 크게 단축한다.
상세 분석
본 논문은 텍스트‑투‑이미지 확산 모델에서 특정 유해 개념을 제거하는 ‘머신 언러닝’ 문제를 다루며, 기존 방법이 전 모델을 전면 파인튜닝하거나 정적 뉴런 마스크에 의존해 효율성과 정밀도가 떨어지는 한계를 지적한다. TRUST는 두 가지 핵심 아이디어를 결합한다. 첫째, 개념 뉴런의 중요도를 동적으로 추정한다. 저자는 입력 프롬프트와 생성 이미지 사이의 정렬 손실(Alignment Loss)의 그래디언트를 이용해 현재 스텝에서 가장 큰 영향을 미치는 교차‑어텐션 레이어의 뉴런을 선택하고, 이를 매 파인튜닝 배치마다 갱신한다. 이 과정은 정적 마스크가 학습 초기에만 유효하고, 파인튜닝이 진행될수록 뉴런 활성화와 그래디언트가 급격히 변한다는 관찰에 기반한다. 둘째, 헤시안 기반 정규화인 Concept Influence Penalty(CIP)를 도입한다. CIP는 선택된 뉴런의 파라미터 변화가 모델 전체 손실에 미치는 2차 미분(헤시안) 정보를 활용해, 목표 개념에 대한 영향은 크게 유지하면서 비목표 개념에 대한 파라미터 변동을 억제한다. 이는 기존 L2 정규화가 모든 파라미터를 균등하게 제어하는 것과 달리, 중요한 뉴런에 대한 미세 조정을 가능하게 한다.
실험 설계는 개별 개념, 개념 조합, 조건부 개념 세 가지 시나리오를 포함한다. 평가 지표는 공격 성공률(ASR), 언러닝 정확도(UA), CLIP‑Score, FID, 그리고 비목표 프롬프트에 대한 유지 정확도(RA) 등이다. TRUST는 동일한 데이터와 연산 자원 하에서 SalUn, CoGFD 등 최신 방법보다 3~5배 빠르게 수렴하며, ΔFID가 0.02에 불과해 이미지 품질 저하가 거의 없음을 보인다. 특히, “child drinking beer”와 같은 위험 조합 개념을 제거하면서도 “child”와 “beer” 각각은 그대로 유지하는 정밀도가 뛰어나다.
한계점으로는 헤시안 계산이 메모리 비용을 증가시킬 수 있다는 점과, 현재는 교차‑어텐션 레이어에만 적용했으므로 다른 구조(예: 변형자 레이어)에는 추가 연구가 필요하다는 점을 언급한다. 전반적으로 TRUST는 동적 뉴런 재평가와 2차 정규화를 결합한 새로운 패러다임을 제시하며, 실시간 안전성 확보가 요구되는 대규모 생성 모델에 실용적인 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기