효율적·통합·범용 밀집 레이어(EUGen)로 보는 차세대 신경망 가속화

효율적·통합·범용 밀집 레이어(EUGen)로 보는 차세대 신경망 가속화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

EUGen은 무작위 특성(Random Features)을 이용해 기존 완전 연결 피드포워드 레이어(FFL)를 선형 시간으로 근사하는 새로운 밀집 레이어이다. 다항식 활성 함수를 포함한 모든 연속 활성 함수를 무편향하게 추정할 수 있으며, 입력 ‖x‖²에 직접 의존함으로써 표현력을 확장한다. 이 레이어는 파라미터와 연산량을 크게 줄이면서도 Transformer와 NeRF 등 다양한 모델에 적용해 추론 속도 27 %·메모리 30 % 절감 효과를 보였다. 또한 역전파 없이 사전 학습 모델에 삽입할 수 있는 지식 전이 기법을 제안한다.

상세 분석

본 논문은 기존의 완전 연결 피드포워드 레이어(FFL)가 차원 d와 출력 차원 l에 대해 O(d·l)·O(d) 복잡도를 갖는 점을 출발점으로 삼아, 이를 무작위 특성(Random Features, RF) 기반의 EUGen(Efficient, Unified, General dense) 레이어로 대체한다. 핵심 아이디어는 가중치 행렬 W와 입력 벡터 x를 각각 비선형 매핑 f(x), g(w) 로 변환한 뒤, 두 변환된 저차원 표현의 내적을 수행함으로써 원래의 고차원 행렬-벡터 곱을 근사하는 것이다.

수식 (1)‑(2)에서 정의된 EUGen_k(w, x)는 k차 다항식 근사를 기반으로 하며, G_{ij} 라는 무작위 행렬을 통해 입력과 가중치를 각각 m·(d+1) 차원으로 압축한다. 여기서 m≪min(d,l) 로 설정하면 전체 연산 복잡도는 O(m·d·k² + m·l) 로, d에 대해 선형 시간이다. 특히 G_{ij} 를 i에 독립적으로 두면 O(m·d·k + m·l) 로 더 최적화된다.

정리 3.1은 EUGen이 다항식 활성 함수 f(x)=∑{i=0}^k a_i x^i 에 대해 무편향(unbiased) 추정을 제공함을 증명한다. 가중치와 입력을 독립적으로 샘플링한 Gaussian(또는 QMC 기반의 정규 직교) 행렬 G{ij} 를 사용하면, 기대값 E


댓글 및 학술 토론

Loading comments...

의견 남기기