숨은 독성 차단을 위한 서브스페이스 개입
초록
본 논문은 대형 언어 모델(LLM)의 내부 표현에서 독성을 유발하는 저차원 서브스페이스를 탐색하고, 추론 시 해당 방향을 억제함으로써 독성 출력을 효과적으로 감소시키는 방법을 제안한다. Gradient‑sensitivity 기반으로 독성 서브스페이스를 추출하고, 투사 연산을 적용해 원본 모델의 유창성은 유지하면서 독성 점수를 8‑20% 낮추는 성과를 보였다.
상세 분석
이 연구는 LLM의 독성 문제를 토큰 수준이 아닌 모델 내부의 연속적인 표현 수준에서 접근한다는 점에서 기존의 프롬프트 기반 필터링이나 RLHF와 차별화된다. 핵심 아이디어는 ‘독성 손실’에 대한 최종 레이어 히든 상태의 그래디언트를 계산해, 독성 생성에 가장 크게 기여하는 방향을 찾는 것이다. 구체적으로는 (1) RealToxicityPrompts에서 독성 점수가 0.5 이상인 2,000개의 프롬프트를 선정하고, (2) 각 프롬프트에 대해 모델이 생성한 텍스트를 전체 문장 수준의 독성 분류기로 평가한다. 이후 토큰별 마스킹 실험을 통해 어느 토큰이 독성 감소에 기여했는지를 라벨링하고, 해당 토큰의 히든 상태에 대해 로그 확률의 그래디언트를 구한다. 이 그래디언트 행렬 G에 대해 SVD를 수행해 상위 k개의 오른쪽 특이벡터 V_k를 추출하고, 이를 독성 서브스페이스 S_tox = span(V_k) 로 정의한다.
추론 단계에서는 히든 상태 h에 대해 정규 직교 투사 P = V_k V_k^⊤ 를 계산하고, h_proj = h − β P h (β∈(0,1]) 로 변환한다. 이렇게 변환된 히든 상태는 그대로 언어 모델 헤드에 입력되어 토큰 로그잇을 생성하므로, 디코딩 파이프라인에 별도의 복잡성을 추가하지 않는다.
이론적 분석에서는 피처 공간에서의 선형 변환이 LM 헤드 가중치 직접 편집보다 더 제한된 가설 클래스에 해당함을 증명한다. 즉, A = −β P 형태의 변환은 W₀ A 라는 형태의 가중치 변화에 대응하지만, vocab ≫ d인 상황에서 W₀ A는 전체 가중치 공간을 완전히 커버하지 못한다. 따라서 피처 공간 개입은 사전 학습된 지식을 보존하면서 독성 방향만 선택적으로 억제할 수 있는 구조적 장점을 가진다.
실험에서는 Mistral‑7B, Llama‑2‑13B 등 여러 최신 LLM에 적용했으며, RealToxicityPrompts와 OpenAI Evals 기반의 독성 지표에서 기존 디톡스 방법(예: DPO, RLHF, 토큰‑레벨 필터) 대비 평균 8‑20%의 추가 감소를 달성했다. 동시에 Perplexity, MAUVE, 인간 평가 점수 등 유창성 및 일관성 지표는 거의 변동이 없으며, β 값을 0.2~0.5 사이에서 조정해 안전성‑품질 트레이드오프를 미세하게 제어할 수 있음을 보였다.
한계점으로는 (1) 그래디언트 기반 서브스페이스가 데이터셋에 의존적이어서 새로운 도메인이나 언어에선 재학습이 필요하고, (2) β 선택이 과도하면 의미적 정보까지 손실될 위험이 있다. 또한, 서브스페이스 차원 k를 어떻게 최적화할지에 대한 자동화된 기준이 부족하다. 향후 연구에서는 다중 언어·다중 도메인에 대한 일반화와, 서브스페이스 탐색을 메타‑학습 형태로 확장하는 방안을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기