로짓에서 잠재공간까지 LLM 삭제를 위한 대조표현 정규화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 언어 모델(LLM)에서 특정 데이터나 개념을 삭제할 때, 기존의 로그(예측) 정렬 방식이 잔존 표현을 억제에 그친다는 한계를 지적한다. 저자는 대조학습 기반 정규화 기법인 CLReg를 제안하여, 잊혀야 할 특징을 식별하고 이를 보존된 특징과 멀리 떨어뜨림으로써 표현 공간의 얽힘(entanglement)을 감소시킨다. 이 방법은 기존 언어 모델 정렬 기법과 결합해 삭제 성능을 크게 향상시키면서도 보존된 지식의 변화를 최소화한다. 이론적 분석과 다양한 벤치마크 실험을 통해 CLReg가 얽힘 감소와 삭제 품질 향상에 기여함을 입증한다.

상세 분석

본 연구는 LLM 삭제 문제를 “예측 공간 정렬”과 “표현 공간 재구성”이라는 두 축으로 구분한다. 기존의 NPO, SimNPO, UnDIAL 등은 모델 출력 확률을 목표 모델과 맞추는 방식으로, 잊혀야 할 토큰의 생성 확률만 낮추고 내부 표현은 크게 변형하지 않는다. 이는 “억제(suppression)” 현상으로, 잊혀야 할 개념이 은닉층에 여전히 존재해 정보 누출 위험을 남긴다. 저자는 이를 해결하기 위해 대조학습(contrastive learning)의 핵심 원리인 ‘정렬(alignment)’과 ‘균일성(uniformity)’을 활용한다.

CLReg는 먼저 Forget set F와 Retain set R을 정의하고, 각 Forget 샘플에 대해 두 가지 양성(positive) 변형을 만든다. 하나는 dropout을 적용한 은닉 상태, 다른 하나는 사전학습된 파라프레이즈 모델을 이용한 텍스트 변형이다. 이때 dropout 확률을 N(0.1, 0.05)로 샘플링해 은닉 표현에 미세한 노이즈를 주어 서로 다른 양성 쌍을 만든다. Retain 샘플은 그대로 음성(negative)으로 사용한다.

대조 손실은 DPO‑style 형태와 InfoNCE 형태 두 가지를 제시한다. DPO‑style은 sigmoid‑based 로짓 차이를 최소화해 양성 쌍의 코사인 유사도를 음성보다 크게 만들고, InfoNCE는 전체 배치 내에서 양성을 정답으로 하는 교차 엔트로피를 적용한다. 두 손실 모두 대칭화(symmetrization)를 통해 anchor‑negative 역할을 교환함으로써 양쪽 모두에서 거리 감소를 유도한다.

이 정규화는 기존 언어 모델 정렬 손실(L_forget, L_retain)과 가중치 λ를 곱해 총합 L = αL_retain + γL_forget + λL_CL 로 결합된다. 실험에서는 주로 마지막 레이어(또는 penultimate layer)에서 CLReg를 적용해 고수준 의미 특징을 목표로 한다.

이론적 기여는 Proposition 3.2와 Corollary 3.3을 통해 증명된다. 손실 ℓ_ij에 대한 anchor a_i(Forget 임베딩)의 그래디언트는 −2σ(−m_ij/τ)(p_i−n_j) 형태이며, 이는 a_i를 양성 p_i 쪽으로, 음성 n_j(보존 임베딩) 쪽으로 이동시킨다. 따라서 작은 학습률 η>0에 대해 a_i·n_j가 감소함을 보이며, 이는 Forget‑Retain 간 코사인 유사도가 감소한다는 의미다. 결과적으로 분포적 거리 D(P_F, P_R) (예: Wasserstein, MMD 등) 가 증가해 얽힘이 감소한다는 정량적 해석을 제공한다.

실험에서는 TOFU, Wiki‑Unlearn 등 여러 삭제 벤치마크와 Llama‑2‑7B, Llama‑2‑13B, GPT‑NeoX‑20B 등 다양한 규모의 모델에 CLReg를 적용했다. 주요 평가지표는 (1) Forget‑Retain 엔트로피 차이, (2) 삭제된 토큰의 생성 확률 감소, (3) 보존된 성능(Perplexity, GLUE 점수) 유지이다. CLReg는 단독 사용 시에도 얽힘 지표를 평균 12‑18% 개선했으며, 기존 NPO·SimNPO와 결합했을 때는 Forget 정확도(F1)에서 추가 5‑9% 상승을 보였다. 특히, 고도로 암기된 문장(예: 코드 스니펫)에서도 메모리 누출을 거의 완전히 차단했다는 정성적 시각화 결과가 제시된다.

프라이버시 측면에서, CLReg는 추가적인 데이터 접근이나 파라미터 마스킹 없이 은닉 표현만을 재구성하므로, 기존 “gradient‑based unlearning”이 초래할 수 있는 과도한 파라미터 변동이나 메모리 누수 위험을 최소화한다. 또한, 정규화 강도 λ를 조절함으로써 보존 성능과 삭제 강도 사이의 트레이드‑오프를 세밀하게 조정할 수 있다.

결론적으로, 이 논문은 LLM 삭제에 있어 “예측 정렬”만으로는 충분치 않으며, “표현 공간 재구성”이 필수적이라는 새로운 패러다임을 제시한다. CLReg는 대조학습의 강력한 이론적 기반을 활용해, 삭제 대상과 보존 대상 사이의 표현적 얽힘을 정량적으로 감소시키고, 실험적으로도 다양한 모델·데이터셋에서 일관된 성능 향상을 입증한다. 향후 연구는 (1) 자동화된 양·음성 샘플링 전략, (2) 다중 개념(다중 forget set) 동시 삭제, (3) 대규모 파라미터 효율성을 위한 저비용 근사화 등으로 확장될 여지가 있다.

로짓에서 잠재공간까지 LLM 삭제를 위한 대조표현 정규화

초록

상세 분석

댓글 및 학술 토론

의견 남기기