그라디언트 유사성으로 보는 대규모 언어 모델의 재앙적 망각 메커니즘

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 언어 모델(LLM)에서 지식 주입 시 발생하는 재앙적 망각을 그라디언트 유사성 관점에서 이론적으로 규명한다. 부정적인 그라디언트 유사성이 망각의 근본 원인임을 증명하고, 뉴런을 ‘충돌 뉴런’(망각 유발)과 ‘협업 뉴런’(망각 완화)으로 구분한다. 충돌 뉴런을 고정하고 협업 뉴런만 업데이트하는 Collaborative Neural Learning(CNL) 방식을 제안해, 무한소 학습률과 정확히 알려진 마스터셋 가정 하에 이론적으로 망각을 제거한다. 실험 결과 CNL은 인셋 설정에서 망각을 0%로 만들고, 아웃오브셋 설정에서는 59.1%~81.7%까지 감소시킨다.

상세 분석

본 연구는 LLM의 파라미터 업데이트를 미분 가능한 함수 fθ 로 모델링하고, 지식 주입 집합 I 와 기존에 마스터된 집합 M 에 대한 손실 L_I(θ), L_M(θ) 를 정의한다. 무한소 학습률 η 하에서 1차 테일러 전개를 적용하면, 주입 집합에 대한 손실 감소는 ΔL_I = –η ∇θL_I · ∇θL_I = –η S(I,I) 이며, 여기서 S(I,I) 는 양의 값이므로 손실은 항상 감소한다. 반면 마스터셋에 대한 손실 변화는 ΔL_M = –η ∇θL_M · ∇θL_I = –η S(M,I) 이다. 즉, S(M,I) 가 음수이면 손실이 증가해 망각이 발생한다는 핵심 식을 도출한다.

이론적 결과를 검증하기 위해 저자는 5개의 LLM(다양한 규모의 Qwen·LLaMA)과 4개의 벤치마크(MMLU, MedQA, ARC‑C, CSQA)를 사용해 실험을 수행한다. 각 모델에 대해 정확히 맞춘 샘플을 M, 틀린 샘플을 I 로 구분하고, I 에 대해 파인튜닝을 진행한다. 결과는 I 에 대한 학습은 성공했지만 M 에 대한 손실이 크게 상승함을 보여, 재앙적 망각이 실제로 발생함을 확인한다.

그라디언트 유사성을 뉴런 수준으로 분해하면, 개별 파라미터 θ_j 에 대해 s_j(M,I)=∇θ_jL_M·∇θ_jL_I 를 정의할 수 있다. 전체 유사성 S(M,I) 는 모든 s_j 의 합이다. 부정적인 s_j 를 가진 뉴런을 ‘충돌 뉴런’(θ_CF)이라 하고, 양의 s_j 를 가진 뉴런을 ‘협업 뉴런’(θ_CB)이라 명명한다. 실험 결과, 모델마다 충돌 뉴런이 전체 파라미터의 50%~75%를 차지하고, 협업 뉴런은 25%~50%에 불과함을 보고한다. 충돌 뉴런이 다수이므로 전체 손실 변화는 음의 방향으로 편향되어 망각이 일어난다.

이러한 분석을 바탕으로 저자는 ‘Collaborative Neural Learning(CNL)’을 제안한다. CNL은 I 에 대한 그라디언트를 계산한 뒤, s_j(M,I) ≥ 0 인 협업 뉴런에만 업데이트를 허용하고, s_j(M,I) < 0 인 충돌 뉴런은 고정한다. 수식적으로는 θ←θ–η I

그라디언트 유사성으로 보는 대규모 언어 모델의 재앙적 망각 메커니즘

초록

상세 분석

댓글 및 학술 토론

의견 남기기