지속적 사전학습 독극물: 믿음 전이와 레이어별 변형
초록
본 논문은 대규모 언어모델을 지속적 사전학습(CPT) 과정에서 설득력 있는 허위 정보를 반복적으로 주입하면, 전체 성능은 유지하면서도 특정 사실에 대한 내부 ‘믿음’이 급격히 뒤바뀔 수 있음을 실증한다. 50~100% 수준의 독극물 비율만으로도 55% 이상의 정답이 반대 주장으로 전환되며, 이러한 변형은 주로 상위 레이어(예: 3B 모델의 29‑36층)에 집중되고, 패치 기법으로 최대 56.8%까지 복구 가능함을 보인다.
상세 분석
이 연구는 기존 정적 사전학습 독극물 연구와 달리, 모델이 실제 서비스 환경에서 겪는 ‘지속적 사전학습(CPT)’ 상황을 시뮬레이션한다. 저자들은 사실‑반사실 쌍을 구성하고, 독극물 비율 ρ (0.1, 0.5, 0.9, 1.0)를 조절해 단계별 업데이트를 수행한다. 핵심 측정 지표는 로그우도 차이 ΔLL 로, 이는 프롬프트 x 에 대해 정답 y⁺와 반사실 y⁻ 의 확률 차이를 정량화한다. ΔLL > 0이면 ‘올바른 믿음’, < 0이면 ‘오염된 믿음’으로 분류한다.
실험은 Qwen2.5 시리즈(0.5B‑7B) 모델에 적용했으며, 12,000 스텝(1 epoch) 동안 체크포인트를 저장해 믿음 변화를 시계열적으로 추적했다. 결과는 두 가지 중요한 현상을 드러낸다. 첫째, 독극물 비율이 0.5 이상이면 정답 비율이 급격히 감소하고, 불확실성(모호성) 수준은 거의 변하지 않는다. 이는 모델이 ‘불확실해지는’ 것이 아니라 특정 사실에 대한 내부 표현을 명확히 대체한다는 증거다. 둘째, 레이어별 분석에서 변형이 주로 상위 레이어에 국한됨을 확인했다. CKA(선형 상관계수)와 활성 패칭(activation patching) 실험을 통해, 29‑36층(3B 모델)에서 숨겨진 표현이 크게 drift 하고, 이 레이어를 클린 상태로 패칭하면 ΔLL이 양전으로 회복되는 것을 보였다.
또한, 헤드 수준의 어텐션 억제 실험은 몇몇 특정 헤드가 믿음 전이에 과도하게 기여한다는 점을 밝혀냈다. 이러한 헤드들을 차단하면 오염된 답변 비율이 현저히 감소했으며, 이는 ‘믿음’이 완전히 분산된 것이 아니라 제한된 서브네트워크에 집중된다는 의미다.
일반화 테스트에서는 독극물에 오염된 모델이 동일한 사실에 대한 다양한 프롬프트 형식(직접 질의, 클로즈, 지시문 등)에서도 일관된 오류를 보였으며, HellaSwag·TruthfulQA·HH‑RLHF 등 외부 벤치마크에서도 특정 도메인(예: 상식 추론) 성능이 저하되는 반면, 정렬 지표는 크게 변하지 않았다. 다국어 실험에서는 번역된 프롬프트에서도 일부 오염된 믿음이 전이되었지만, 전이율은 언어마다 차이가 나며 완전한 복제는 아니었다.
마지막으로, 패칭 실험을 통해 최대 56.8%까지 오염된 믿음을 복구할 수 있음을 보였으며, 이는 모델 내부의 ‘진실’ 표현이 여전히 존재하지만 접근성이 감소한 상태임을 시사한다. 전체적으로, 지속적 사전학습 과정에서의 반복적 허위 정보 주입은 모델의 사실적 지식 구조를 은밀히 재구성할 수 있음을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기