오쏘이레이저: 안전한 개념 삭제를 위한 정교한 직교 투영 기법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

오쏘이레이저는 희소 자동인코더(SAE)를 이용해 텍스트‑투‑이미지 모델의 내부 표현을 고해상도로 분리하고, 민감한 뉴런과 이와 얽힌 비민감 뉴런을 탐지한 뒤, 민감 개념을 억제하는 방향을 해당 비민감 뉴런이 정의하는 서브스페이스의 영공간으로 투영한다. 이를 통해 해로운 내용은 효과적으로 제거하면서도 모델의 전반적인 생성 품질과 비민감 의미는 유지한다.

상세 분석

오쏘이레이저는 기존 개념 삭제 방법이 “특정 뉴런을 완전히 억제하면 비민감 의미까지 손상된다”는 근본적인 한계를 기하학적 관점에서 재해석한다. 먼저, 저자들은 텍스트‑투‑이미지 모델의 중간 레이어에서 민감 개념이 가장 뚜렷하게 표현되는 지점을 찾기 위해 ‘민감 점수(SS)’를 정의한다. 이 점수는 민감 프롬프트와 비민감 프롬프트 사이의 어텐션 차이와 컨텍스트 교란(CD)을 결합해 레이어별로 계산되며, SS가 최대인 레이어를 목표 레이어(l*)로 선정한다.

선택된 레이어에 대해 희소 자동인코더(SAE)를 학습시켜 고차원 과잉표현(오버컴플리트) 공간을 만든다. SAE는 각 뉴런이 단일 의미를 담당하도록 강제함으로써, 기존 딥 네트워크에서 발생하는 다중 개념의 초중첩(superposition)을 해소한다. 이후, 각 SAE 뉴런에 대해 가중치 빈도 점수(WFS)와 민감 프롬프트와 비민감 프롬프트 간의 차이(ΔWFS)를 계산해 상위 K개의 뉴런을 ‘민감 뉴런(N_sens)’으로 정의한다.

하지만 민감 뉴런만을 제거하면, 이들 뉴런과 비민감 뉴런 사이에 존재하는 비직교 관계 때문에 비민감 뉴런도 활성화가 변한다. 이를 방지하기 위해 저자들은 ‘제로-앱레이션(zero‑ablation)’ 실험을 수행한다. 민감 뉴런을 일시적으로 0으로 만든 뒤 재인코딩하여 각 비민감 뉴런의 활성도 변화량(δ_j)을 측정하고, 변화량이 큰 상위 K개의 뉴런을 ‘결합 뉴런(C)’으로 선정한다. 결합 뉴런은 민감 개념과 얽혀 있어, 이들의 서브스페이스를 보존해야 전체 생성 품질이 유지된다.

핵심 기법은 ‘직교화(orthogonalization)’이다. 결합 뉴런들의 디코더 가중치 행렬 W_C에 QR 분해를 적용해 정규 직교 기저 Q를 얻고, 투영 행렬 P=QQᵀ를 만든다. 민감 뉴런들의 가중치 합으로 정의된 원시 민감 방향 d_raw를 영공간(I−P)으로 투영해 d를 얻는다. 최종적으로 원래 잠재 표현 h에서 λ·d를 빼서 안전한 표현 ĥ를 만든다. 이 과정은 민감 개념을 제거하면서 결합 뉴런이 정의하는 서브스페이스에는 전혀 영향을 주지 않으므로, 비민감 의미와 이미지 품질이 크게 손상되지 않는다.

실험에서는 Stable Diffusion 등 최신 T2I 모델에 오쏘이레이저를 적용해 성인·폭력 등 위험한 프롬프트에 대한 출력이 현저히 감소했으며, FID, CLIPScore 등 품질 지표는 기존 방법보다 우수했다. 특히, 민감 개념을 완전히 억제했음에도 불구하고 이미지의 전반적 사실성, 색감, 구도 등이 유지되는 것을 정량·정성적으로 입증했다.

이 논문의 주요 기여는 (1) 민감·비민감 의미가 얽힌 고차원 표현을 희소 자동인코더로 명시적으로 분리한 점, (2) 결합 뉴런을 탐지해 보호 서브스페이스를 정의하고, (3) 그 서브스페이스의 영공간으로 민감 방향을 투영하는 분석적 직교화 전략을 제시한 점이다. 한계로는 SAE 학습 비용이 높고, 민감 프롬프트 정의가 도메인에 따라 달라질 수 있다는 점, 그리고 영공간 투영이 완전한 직교성을 보장하지 못할 경우 미세한 의미 손실이 발생할 가능성이 있다. 향후 연구에서는 더 효율적인 희소 코딩 기법과 다중 민감 개념 동시 삭제, 그리고 실시간 인터랙티브 제어를 위한 경량화 방안을 탐색할 여지가 있다.

오쏘이레이저: 안전한 개념 삭제를 위한 정교한 직교 투영 기법

초록

상세 분석

댓글 및 학술 토론

의견 남기기