머리속 개념을 조작한 기계 언러닝: 부수 효과와 제어 가능성
초록
본 논문은 LLM의 “잊기”(unlearning) 과정에서 고수준 개념을 나타내는 일차원 벡터를 조작하면, 단순히 지식을 삭제하는 것을 넘어 해당 개념과 연관된 행동·능력을 의도적으로 강화하거나 억제할 수 있음을 보인다. 이를 위해 저자들은 선형 표현 가설을 기반으로 ‘표현 추가(RAd)’와 ‘표현 소거(RAb)’ 두 가지 방법을 제안하고, 진실성, 감정, 거부 행동, 인‑컨텍스트 학습 등 다양한 베이스라인에서 실험한다. 결과는 목표 개념 벡터가 무작위 벡터와 거의 직교함을 이론적으로 증명하고, 실제 실험에서도 RAd는 해당 개념을 강화, RAb는 억제한다는 점을 확인한다.
상세 분석
본 연구는 머신 언러닝(MU) 분야에서 아직 충분히 탐구되지 않은 “표현 오도(Representation Misdirection, RM)” 메커니즘을 선형 표현 가설(linear representation hypothesis)을 통해 재조명한다. 선형 표현 가설은 고수준 개념이 모델의 잠재 공간에 선형적으로 인코딩된다고 가정한다. 저자들은 이 가정을 바탕으로, 특정 개념 W 에 대응하는 일차원 단위 벡터 (\bar{\lambda}_W) 를 찾으면, 해당 벡터를 잊히는 샘플의 은닉 표현에 선형적으로 더하거나 빼는 연산을 통해 모델의 행동을 제어할 수 있다고 주장한다.
두 가지 핵심 연산인 **표현 추가(RAd)**와 **표현 소거(RAb)**는 각각 다음과 같은 수식으로 정의된다.
- RAd: (\lambda’ = \lambda_f + c\bar{\lambda}_W) (c > 0) – 잊히는 샘플의 표현에 개념 벡터를 더함으로써, 로그오즈가 (\exp(\alpha c \bar{\lambda}_W^\top \bar{\gamma}_W)) 만큼 증가한다. 이는 개념 W 에 해당하는 출력(예: 진실성)이 더 높은 확률로 생성됨을 의미한다.
- RAb: (\lambda’ = \lambda_f - c\langle\lambda_f,\bar{\lambda}_W\rangle\bar{\lambda}_W) – 개념 벡터와 정렬된 성분을 제거함으로써 로그오즈가 (\exp(-\alpha c \langle\lambda_f,\bar{\lambda}_W\rangle \bar{\lambda}_W^\top \bar{\gamma}_W)) 만큼 감소한다. 결과적으로 해당 개념에 대한 출력이 억제된다.
이론적 분석 외에도, 고차원 공간에서 무작위 벡터와 개념 벡터가 거의 직교한다는 Proposition 3.2를 제시한다. 이는 (|\langle u,\bar{\lambda}_W\rangle|\le\epsilon) 가 차원 d 가 클수록 높은 확률로 성립한다는 의미이며, 무작위 목표 벡터를 사용해도 의도치 않은 개념 편향이 거의 발생하지 않음을 보장한다.
실험에서는 Zephyr‑7B와 Mistral‑7B 두 모델을 대상으로, 생물·사이버 분야의 위험 지식 삭제(WMDP‑Biology, WMDP‑Cyber)와 일반 언어 이해(MMLU) 성능을 유지하면서, 진실성(TruthfulQA), 감정(GLUE‑SST2), 거부 행동(Alpaca/AdvBench), 인‑컨텍스트 학습 등 부수 효과를 정량화했다. RAd에 진실성 개념 벡터를 삽입하면 TruthfulQA 정확도가 7~15% 상승했으며, 반대로 RAb는 동일 개념을 제거해 정확도가 크게 감소했다. 감정 및 거부 행동에서도 유사한 패턴이 관찰되었다.
또한, 무작위 벡터를 목표로 할 경우(‘random’ 조건) 모델 성능이 크게 손상되지 않으며, 오히려 일부 경우에 BLEU·ROUGE 점수가 소폭 향상되는 현상이 보고되었다. 이는 기존 연구에서 제시된 “노이즈 주입”이 실제로는 구조화된 신호가 아니라 무작위성에 의해 모델의 잔차 스트림을 방해하는 메커니즘임을 시사한다.
결과적으로, 논문은 **“Controllable Side Effect Hypothesis”**를 실험적으로 입증한다. 즉, 언러닝 과정에서 특정 고수준 개념을 명시적으로 조작하면, 해당 개념과 연관된 부수 행동·능력을 의도적으로 강화하거나 억제할 수 있다. 이는 두 가지 함의를 가진다. 첫째, 악의적인 사용자가 특정 개념을 강화해 모델을 조작하거나, 반대로 중요한 안전 개념을 억제해 위험한 출력을 유도할 위험이 존재한다. 둘째, 이러한 메커니즘을 활용해 모델의 특정 능력을 사후적으로 강화하거나, 민감한 도메인에서 의도적으로 행동을 제한하는 ‘안전 강화’ 도구로 활용할 가능성이 열린다.
댓글 및 학술 토론
Loading comments...
의견 남기기