통신 제약 하의 전문가 혼합 모델: 정보율‑일반화 트레이드오프

본 논문은 Mixture‑of‑Experts(MoE) 구조의 게이팅을 제한된 정보 전송률을 갖는 확률 채널로 모델링하고, 정보‑이론적 일반화 경계와 레이트‑디스토션 함수를 결합해 “게이팅 정보율 R₍g₎ = I(X;T)”가 모델의 표현력과 일반화 성능을 동시에 제어한다는 새로운 트레이드오프를 제시한다. 실험을 통해 제한된 게이팅 비트 수가 위험(Risk) 상한에 미치는 영향을 검증한다.

저자: ** - A. Khalesi (Assistant Professor, Institut Polytechnique des Sciences Avancées, IPSA

통신 제약 하의 전문가 혼합 모델: 정보율‑일반화 트레이드오프
본 논문은 Mixture‑of‑Experts(MoE) 모델을 정보‑통신 관점에서 재해석하고, 게이팅 메커니즘을 제한된 정보 전송률을 갖는 확률 채널로 모델링한다. 먼저, 입력 X와 라우팅 변수 T 사이의 상호정보 I(X;T)를 ‘게이팅 정보율 R₍g₎’라 정의하고, 이 값이 전문가 풀에 전달되는 정보량을 직접 제어한다는 점을 제시한다. 기존 MoE 이론에서는 전문가 수 n 이 모델 복잡도와 일반화에 미치는 영향을 주로 다루었지만, 여기서는 R₍g₎ 라는 단일 스칼라 파라미터가 모델의 표현력과 일반화 성능을 동시에 결정한다는 새로운 프레임워크를 제시한다. 이론적 기반은 두 가지 주요 구성 요소로 이루어진다. 첫 번째는 Xu‑Raginsky의 상호정보 일반화 경계이다. 손실 함수 ℓ가

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기