전문가 붕괴를 방지하는 소프트 최근접 이웃 손실 기반 혼합전문가 모델

본 논문은 소프트 최근접 이웃 손실(SNNL)로 사전 학습된 특징 추출기를 도입해 Mixture‑of‑Experts(MoE) 구조의 전문가 붕괴 현상을 완화한다. SNNL이 클래스 내 거리를 최소화함으로써 게이팅 네트워크가 보다 유연하게 라우팅할 수 있는 잠재 공간을 형성하고, 결과적으로 전문가 간 가중치가 정규 직교성을 띠며 다양해진다. MNIST, FashionMNIST, CIFAR‑10, CIFAR‑100 실험에서 정확도 향상과 함께 제안…

저자: Abien Fred Agarap, Arnulfo P. Azcarraga

본 논문은 Mixture‑of‑Experts(MoE) 모델에서 발생하는 ‘전문가 붕괴(Expert Collapse)’ 현상을 해결하기 위해, Soft Nearest Neighbor Loss(SNNL)를 활용한 특징 추출기(pre‑processor)를 도입한 새로운 아키텍처를 제안한다. 전문가 붕괴는 원시 입력 특성 공간에서 클래스 경계가 겹쳐 있을 때, 여러 전문가가 동일하거나 중복된 표현을 학습하고, 게이팅 네트워크가 강제적인 하드 라우팅을 수행하게 되는 문제이다. 이러한 현상은 모델의 표현 다양성을 저해하고, 일반화 성능을 제한한다. ### 1. 배경 및 기존 연구 - MoE는 전문가 네트워크 집합과 이를 감독하는 게이팅 네트워크로 구성되며, 각 전문가가 데이터의 서브셋에 특화하도록 설계된다. - 기존 연구에서는 전문가 간 협업(ensemble)과 전문가 간 전문화(specialization)를 구분했으며, 전문화가 제대로 이루어지지 않을 경우 전문가 붕괴가 발생한다. - 클래스 구조를 반영한 차원 축소·임베딩 기법으로는 PCA, t‑SNE, Triplet Loss, Soft Nearest Neighbor Loss 등이 있다. 이 중 SNNL은 클래스 동일 샘플 간 거리를 지수적으로 가중해 최소화함으로써, 클래스별 클러스터를 형성하도록 학습한다. ### 2. 제안 방법 1. **CNN 기반 특징 추출기**: 두 개의 Conv‑BN‑ReLU‑MaxPool 블록(첫 블록 32필터, 두 번째 블록 64필터)으로 구성된 네트워크를 사용해 입력 이미지를 1‑D 임베딩 벡터로 변환한다. 2. **Soft Nearest Neighbor Loss 적용**: 특징 추출기의 각 은닉층에 SNNL을 적용한다. 손실은 \

전문가 붕괴를 방지하는 소프트 최근접 이웃 손실 기반 혼합전문가 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기