신경망의 재앙적 망각을 극복하는 탄성 가중치 통합
초록
본 논문은 연속적인 과제 학습 시 발생하는 재앙적 망각을 완화하기 위해 ‘탄성 가중치 통합(EWC)’이라는 방법을 제안한다. 중요한 파라미터에 대해 이전 과제의 정보를 기반으로 강한 제약을 가함으로써, 새로운 과제를 학습하면서도 기존 과제의 성능을 유지한다. MNIST 퍼뮤테이션 과제와 Atari 2600 게임을 대상으로 한 실험에서 EWC가 기존 방법보다 뛰어난 지속 학습 능력을 보였다.
상세 분석
이 논문은 인간 뇌에서 관찰되는 ‘시냅스 통합(synaptic consolidation)’ 현상을 인공 신경망에 적용한 혁신적인 연속 학습 기법을 제시한다. 핵심 아이디어는 이전 과제에 대해 파라미터가 얼마나 중요한지를 정량화하고, 그 중요도에 비례해 학습률을 억제하는 것이다. 이를 위해 저자들은 베이즈 관점에서 파라미터 사후분포를 라플라스 근사로 근사하고, 평균은 이전 과제에서 최적화된 파라미터 θ*ₐ, 공분산은 대각선 형태의 피셔 정보 행렬(F)으로 설정한다. 피셔 정보는 손실 함수의 2차 미분에 해당하며, 첫 번째 미분만으로도 효율적으로 계산될 수 있어 대규모 네트워크에도 적용 가능하다.
EWC 손실 함수는 L(θ)=L_B(θ)+∑_i (λ/2)F_i(θ_i−θ*_ₐ,i)² 형태이며, 여기서 λ는 이전 과제와 새로운 과제 사이의 중요도 균형을 조절한다. 다중 과제(A, B, C…)에 대해 각각의 피셔 정보를 누적하거나, 각 과제마다 별도의 제약을 적용해 하나의 복합 제약으로 합칠 수 있다. 이렇게 하면 파라미터가 이전 과제에 대해 ‘탄성 스프링’처럼 고정되면서도, 덜 중요한 파라미터는 새로운 과제에 맞게 자유롭게 변한다.
실험은 두 가지 도메인에서 수행되었다. 첫 번째는 퍼뮤테이션된 MNIST 데이터셋으로, 각 과제마다 입력 픽셀을 무작위로 섞어 동일 난이도의 새로운 분류 문제를 만든다. 일반 SGD는 첫 번째 과제의 성능을 급격히 잃지만, EWC는 중요한 가중치를 보호해 두 번째, 세 번째 과제에서도 이전 성능을 유지한다. L2 정규화와 드롭아웃은 일부 완화 효과가 있지만, 모든 가중치에 동일한 제약을 가하기 때문에 새로운 과제 학습이 크게 제한된다. 피셔 행렬 간 겹침을 분석한 결과, 입력 변형이 클수록 초기 층에서 서로 다른 가중치를 사용하고, 출력층에 가까울수록 가중치를 공유한다는 흥미로운 패턴이 발견되었다.
두 번째는 Atari 2600 게임 환경에서의 강화학습이다. Deep Q-Network(DQN)에 EWC를 적용하고, 각 게임 전환 시 피셔 정보를 재계산한다. 또한 작업 인식을 위한 히든 마르코프 모델을 도입해 현재 게임을 추론하고, 새로운 게임이 등장하면 ‘forget‑me‑not’ 메커니즘으로 새로운 피셔 정보를 추가한다. 실험 결과, 단일 네트워크가 10개의 게임을 순차적으로 학습하면서도 각 게임에 대한 성능 저하가 최소화되었으며, 기존 방법(용량 추가 혹은 별도 네트워크)보다 메모리와 연산 비용이 크게 절감되었다.
이 논문의 주요 공헌은 (1) 파라미터 중요도를 피셔 정보로 정량화한 실용적인 연속 학습 프레임워크, (2) 라플라스 근사를 통한 베이즈적 해석 제공, (3) 감독 학습과 강화 학습 모두에서 확장 가능한 실험 검증이다. 한계점으로는 피셔 정보가 대각선 근사에 의존해 파라미터 간 상관관계를 무시한다는 점, 그리고 λ 하이퍼파라미터 선택이 과제 간 차이에 민감할 수 있다는 점이 있다. 향후 연구는 비대각선 피셔 근사, 메타러닝 기반 λ 자동조정, 그리고 비정형적인 연속 과제 시나리오(예: 비정적 데이터 흐름) 적용을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기