놀라움 기반 재현과 이중 학습기로 구현하는 대규모 언어 모델 지속 학습

초록

지속 학습은 여러 작업을 순차적으로 학습하면서 이전에 습득한 지식을 잊지 않는 능력으로, 인간 지능과 인공지능 사이의 주요 격차 중 하나이다. 정규화와 재현 방법은 비전 분야에서는 좋은 성과를 보이지만, 대규모 언어 모델(LLM)에서는 특히 작업 수가 많아지는 상황에서 멀티태스크 학습에 뒤처진다. 우리는 재현의 두 가지 실패 모드, 즉 ‘선택(무엇을 재현할지)’과 ‘통합(새 지식을 어떻게 통합할지)’가 이러한 격차를 만든다고 주장한다. 선택 문제를 해결하기 위해 우리는 Surprise‑prioritised Replay(SuRe)를 제안한다. SuRe는 가장 놀라운(음의 로그우도(NLL)가 높은) 시퀀스를 순위 매겨 버퍼에 저장하는 간단하고 아키텍처에 독립적인 규칙이다. SuRe는 대규모 작업 수(LNT) 설정에서 최첨단 성능을 달성하고, 표준 지속 학습 및 LNT 벤치마크 모두에서 평균적으로 최고의 결과를 보여준다. 통합 문제를 해결하기 위해 우리는 빠른 적응을 담당하는 Fast LoRA 어댑터와 장기 기억을 담당하는 Slow LoRA 어댑터를 지수 이동 평균(EMA)으로 병합하는 이중 학습자 구조를 도입한다. SuRe와 이중 학습자를 결합하면 LNT에서 기존 최첨단 대비 정확도가 최대 5점 향상되는 등 추가적인 이득을 얻는다. Ablation 실험을 통해 제안 방법이 재현 빈도 감소와 작은 버퍼 크기에서도 견고함을 유지함을 확인했으며, 이는 샘플 효율성과 효과성을 동시에 만족한다. 종합적으로 우리의 결과는 지속적인 LLM 파인튜닝에 있어 재현이 강력한 베이스라인이 될 수 있음을 입증하고, 놀라움 기반 선택과 느린 가중치 통합이 재현 기반 망각 방지에 상호 보완적인 역할을 함을 보여준다.

상세 요약

본 논문은 대규모 언어 모델(LLM)의 지속 학습(Continual Learning, CL) 분야에서 ‘재현(Replay)’ 전략을 재조명하고, 두 가지 핵심 문제인 ‘선택(selection)’과 ‘통합(integration)’을 해결함으로써 기존 방법론을 크게 능가하는 성과를 제시한다. 기존 CL 연구는 주로 비전 모델에 초점을 맞추어 정규화 기반 방법(예: EWC, L2 정규화)이나 메모리 재현(예: GEM, iCaRL) 등을 활용해 왔으며, 이러한 접근법은 LLM에 적용했을 때 작업 수가 늘어나면 급격히 성능이 저하되는 한계를 보였다. 특히, 작업이 수백 개에 달하는 Large Number of Tasks(LNT) 시나리오에서는 멀티태스크 학습에 비해 큰 격차가 발생한다.

논문은 이 격차의 원인을 ‘무엇을 재현할 것인가(selection)’와 ‘새로운 지식을 어떻게 기존 모델에 통합할 것인가(integration)’라는 두 가지 실패 모드로 규정한다. 선택 문제는 제한된 메모리 버퍼에 어떤 샘플을 저장할지 결정하는 과정이며, 기존 방법들은 보통 무작위 샘플링이나 손실 기반 샘플링을 사용한다. 그러나 이러한 방식은 모델이 현재 가장 ‘놀라운’(즉, 높은 Negative Log‑Likelihood, NLL) 데이터를 놓치게 만들고, 이는 장기 기억 형성에 부정적인 영향을 미친다.

이를 해결하기 위해 제안된 Surprise‑prioritised Replay(SuRe)는 NLL이 높은 시퀀스를 우선적으로 버퍼에 저장한다는 매우 직관적이면서도 효과적인 규칙을 도입한다. NLL은 모델이 현재 입력을 얼마나 예측하기 어려워하는지를 직접적으로 나타내는 지표이므로, 높은 NLL을 가진 샘플은 모델의 지식 공백을 메우는 데 가장 유용하다. SuRe는 아키텍처에 독립적이며, LoRA와 같은 파라미터 효율적인 어댑터와도 자연스럽게 결합될 수 있다. 실험 결과, SuRe는 LNT 벤치마크에서 기존 최고 성능을 크게 앞서며, 표준 CL 설정에서도 평균 정확도에서 최고를 기록한다.

통합 문제에 대해서는 ‘이중 학습자(dual‑learner)’ 구조를 제안한다. 빠른 적응을 담당하는 Fast LoRA 어댑터와 장기 기억을 담당하는 Slow LoRA 어댑터를 각각 학습시키고, 두 어댑터의 파라미터를 지수 이동 평균(EMA)으로 병합한다. EMA는 최신 파라미터와 과거 파라미터를 가중 평균함으로써 급격한 파라미터 변동을 완화하고, 오래된 지식이 서서히 사라지는 것을 방지한다. 이 설계는 메타‑러닝에서 사용되는 ‘fast‑slow’ 메커니즘과 유사하지만, LLM 파인튜닝이라는 고차원, 고용량 환경에 맞게 최적화되었다.

두 구성 요소인 SuRe와 이중 학습자를 결합하면, LNT 상황에서 기존 SOTA 대비 정확도가 최대 5%p 상승한다. 특히, 재현 빈도를 낮추거나 버퍼 크기를 1% 수준으로 축소해도 성능 저하가 미미한 점은 샘플 효율성 측면에서 큰 의미를 가진다. 이는 실제 서비스 환경에서 메모리와 연산 비용이 제한적인 상황에서도 지속 학습이 가능함을 시사한다.

한계점으로는 NLL 기반 선택이 모델 초기 단계에서 과도한 ‘놀라움’ 샘플에 편향될 가능성이 있다는 점이다. 또한 EMA의 감쇠 계수(β) 선택이 작업 간 상관관계에 따라 민감하게 작용할 수 있어, 자동 튜닝 메커니즘이 필요할 것으로 보인다. 향후 연구에서는 메타‑학습 기반 적응형 β 조정, 멀티모달 데이터에 대한 SuRe 확장, 그리고 프롬프트 기반 CL과의 결합 등을 탐색할 여지가 있다.

종합하면, 본 논문은 ‘놀라움 기반 재현’과 ‘이중 학습자 기반 통합’이라는 두 축을 통해 LLM 지속 학습의 핵심 문제를 효과적으로 해결하고, 재현이 LLM 파인튜닝의 강력한 베이스라인이 될 수 있음을 실증한다. 이는 인공지능이 인간과 유사한 지속적인 학습 능력을 갖추는 데 중요한 진전이라 할 수 있다.

초록

상세 요약

📜 논문 원문 (영문)