전문가 게이트 평생 학습을 위한 전문가 네트워크

본 논문은 평생 학습 시나리오에서 새로운 작업이 순차적으로 추가될 때, 이전 작업의 데이터를 보관하지 않으면서도 각 작업에 최적화된 모델을 유지·활용할 수 있는 시스템을 제안한다. 기존의 공동 학습 방식은 모든 데이터를 동시에 사용해야 하며, 데이터 저장 비용과 메모리 부담이 크게 늘어난다. 또한, 단일 네트워크에 모든 작업을 학습시키면 부정적 전이와 성능 저하가 발생한다. 이러한 문제점을 해결하기 위해 저자들은 “Network of Experts”라는 구조를 도입한다. 각 작업마다 별도의 전문가 네트워크를 학습하고, 새로운 작업이 등장하면 가장 관련성이 높은 기존 전문가를 선택해 파라미터를 초기화하거나 Learning‑without‑Forgetting(LwF) 방식으로 정규화한다. 핵심적인 게이트 메커니즘은 작업별 언더컴플리트 오토인코더이다. 입력은 사전 학습된 AlexNet의 마지막 컨볼루션 레이어 출력이며, ImageNet 통계로 표준화하고 시그모이드 함수를 적용한다. 한 층 인코더(fully‑connected + ReLU)와 한 층 디코더(fully‑connected + sigmoid)로 구성된 오토인코더는 입력을 저차원 코드로 압축하고 재구성한다. 재구성 오류는 해당 작업 데이터와 얼마나 잘 맞는지를 나타내며, 테스트 시 모든 오토인코더에 동일 샘플을 통과시켜 오류를 계산한다. 오류값을 온도 t=2를 적용한 소프트맥스 함수에 넣어 확률을 얻고, 가장 높은 확률을 보이는 오토인코더가 담당하는 전문가를 로드한다. 이 방식은 두 가지 장점을 제공한다. 첫째, 메모리 효율성이다. 한 번에 하나의 전문가와 해당 오토인코더만 메모리에 올리면 되므로, 수십 개의 전문가가 존재해도 GPU 메모리 한계에 걸리지 않는다. 둘째, 작업 간 관련성을 정량화한다는 점이다. 새로운 작업이 도착하면 기존 오토인코더들의 재구성 오류를 비교해 가장 낮은 오류를 보이는 전문가를 전이 학습에 활용한다. 이렇게 하면 관련성이 높은 전문가로부터 효과적인 지식 전이가 가능하고, 무관한 작업으로부터의 부정적 전이를 방지한다. 실험에서는 이미지 분류와 비디오 예측 두 도메인에서 평가한다. 이미지 분류에서는 CIFAR‑100, SVHN, Flowers 등 서로 다른 데이터셋을 순차적으로 학습했으며, 기존 LwF, EWC, Progressive Networks와 비교했다. 평균 정확도는 LwF 대비 약 3%p 상승했으며, 메모리 사용량은 기존 방법의 10% 수준으로 크게 감소했다. 비디오 예측에서는 ConvLSTM 기반 모델을 전문가로 사용했으며, 프레임 예측 품질이 기존 단일 모델 대비 향상되었다. 또한, 오토인코더 기반 게이트는 단순 Softmax 기반 선택보다 높은 정확도를 보였으며, 전문가 혼동이 거의 없었다. 한계점으로는 오토인코더가 입력 특징에 크게 의존한다는 점이다. AlexNet 특징에 국한될 경우, 의료 영상이나 위성 이미지처럼 도메인 차이가 큰 경우 재구성 오류가 신뢰성을 잃을 수 있다. 또한, 전문가 수가 급증하면 모든 오토인코더에 대한 오류 계산 비용이 선형적으로 증가하므로, 대규모 시스템에서는 계층적 게이트나 샘플링 전략이 필요할 것이다. 결론적으로, Expert Gate은 전문가 네트워크와 자동 게이트를 결합해 평생 학습의 핵심 과제인 기억 제한, 작업 선택, 지식 전이 문제를 동시에 해결한다. 메모리 효율성과 성능 향상을 동시에 달성하면서, 실제 로봇, 드론, 멀티도메인 비전 시스템 등 다양한 응용 분야에 적용 가능성을 보여준다.

전문가 게이트 평생 학습을 위한 전문가 네트워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기