다중과제 교사로부터 기억을 배우다

본 논문은 순차 학습에서 발생하는 재현성 손실을 출력 정확도가 아닌 내부 표현 수준에서 완화하고자 한다. 저자는 다중과제 학습이 가능한 교사 모델의 표현을 모방하도록 설계된 메타 학습기(메타‑러너)를 제안한다. 메타‑러너는 LSTM 기반 가중치 업데이트 규칙을 학습해 순차 학습 네트워크가 새로운 과제를 배울 때 이전 과제의 특징 표현을 보존하도록 한다. 실험에서는 CIFAR‑10/100 및 Tiny‑ImageNet에서 기존 방법보다 표현 손실을…

저자: Yuwen Xiong, Mengye Ren, Raquel Urtasun

다중과제 교사로부터 기억을 배우다
본 논문은 순차 학습 환경에서 발생하는 재현성 손실, 즉 catastrophic forgetting을 기존의 출력 정확도 유지 관점이 아닌 내부 표현 수준에서 다루고자 한다. 저자는 먼저 “표현 망각”이라는 개념을 정의하고, 이를 정량화하기 위한 실험 프로토콜을 제시한다. 구체적으로, 네트워크가 과제 A에 대해 사전 학습된 뒤 과제 B를 순차적으로 학습할 때, 과제 A의 데이터를 이용해 현재 피처에 선형 읽기층을 새로 학습시킨다. 이 읽기층의 테스트 정확도 감소량을 “표현 망각 정도”로 사용한다. 실험 결과, 과제 B를 학습함에 따라 읽기층 정확도가 점진적으로 떨어지지만, 출력층 자체를 재학습하면 원래 성능에 가까워지는 현상이 관찰된다. 이는 출력층이 급격히 변하면서 일시적인 성능 저하가 발생하지만, 내부 피처 자체는 완전히 사라지지 않음을 시사한다. 이러한 관찰을 바탕으로 저자는 “다중과제 교사”와 “순차 학생”이라는 두 모델을 도입한다. 다중과제 교사는 모든 과제에 동시에 접근할 수 있는 오프라인 모델이며, 학생은 순차적으로 과제 B만을 학습한다. 목표는 학생이 교사의 피처와 가능한 한 가깝게 유지하도록 하는 것이다. 이를 위해 메타‑러너라는 LSTM 기반 가중치 업데이트 규칙을 설계한다. 메타‑러너는 각 가중치 w, 해당 그래디언트 g, 전·후 활성화 h, h′를 입력받아 동적 게이팅 δ를 출력하고, 이를 기존 그래디언트에 곱해 최종 가중치 업데이트를 만든다. 즉, Δw = δ·g, w←w−αΔw 형태다. 메타‑트레이닝 단계에서는 교사와 학생을 동시에 학습시키며, 교사의 피처 h와 학생의 피처 \(\hat h\) 사이의 L2 차이를 최소화하도록 메타‑러너의 파라미터 θ를 업데이트한다. 이 과정은 여러 순차 학습 에피소드를 롤아웃하고, 각 단계에서 메타‑러너가 생성한 업데이트가 얼마나 교사의 피처를 보존하는지를 평가한다. 메타‑테스트 단계에서는 교사가 사라지고, 오직 학습된 메타‑러너만을 사용해 학생 네트워크를 순차적으로 학습한다. 실험은 CIFAR‑10, CIFAR‑100, Tiny‑ImageNet 세 데이터셋에서 수행되었다. 각 데이터셋에 대해 5가지 과제로 나누어 순차 학습을 진행했으며, 기존 방법(EWC, LwF, iCaRL, PackNet 등)과 비교했다. 결과는 다음과 같다. (1) 읽기층 정확도 측면에서 메타‑러너 기반 모델은 기존 방법보다 평균 10~15% 높은 점수를 기록했다. (2) 새로운 과제 학습 직후에도 이전 과제에 대한 피처 손실이 적어, 소량의 샘플(수십 개)만으로 출력층을 재학습하면 원래 성능에 거의 복구된다. (3) 메타‑러너는 다양한 네트워크 구조(완전 연결층, 합성곱층)와 호환되며, 학습된 규칙이 보지 못한 새로운 클래스에도 일반화된다. 논문의 주요 기여는 두 가지이다. 첫째, 표현 수준에서 망각을 측정하는 새로운 방법을 제시함으로써, 기존 “출력 정확도 유지”만으로는 파악하기 어려운 내부 피처 변화 양상을 드러냈다. 둘째, 다중과제 교사의 피처를 모방하도록 설계된 메타‑러너를 통해, 순차 학습 중에도 중요한 피처를 보존하면서 새로운 과제를 효율적으로 학습할 수 있는 가중치 업데이트 규칙을 학습했다. 한계점으로는 메타‑러너 자체가 추가적인 파라미터와 연산을 요구한다는 점, 그리고 메타‑트레이닝을 위해 다중과제 교사 데이터를 필요로 한다는 점을 들 수 있다. 향후 연구에서는 교사 없이 자체적으로 피처 보존을 학습하는 비지도 메타‑학습, 메타‑러너 경량화, 그리고 더 복잡한 연속 학습 시나리오(예: 비정형 데이터, 강화 학습)에서의 적용 가능성을 탐색할 필요가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기