RePU의 한계와 MRePU 제안: 효과적 장 이론으로 보는 안정적 딥러닝 활성화 함수

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 RePU 활성화 함수가 깊은 네트워크에서 값이 소멸·폭발하는 근본 원인을 효과적 장 이론(EFT) 관점에서 규명하고, 임계 조건을 만족하도록 설계된 Modified RePU(MRePU)를 제안한다. 이론적 분석을 통해 MRePU가 새로운 보편성 클래스에 속함을 보이고, 다항 회귀, 물리‑정보 신경망(PINN), 이미지 분류 등 다양한 실험에서 학습 안정성과 성능이 크게 향상됨을 입증한다.

상세 분석

본 연구는 RePU(정규화된 거듭제곱 유닛)의 수학적 특성을 EFT의 자유장·상호작용 장 모델에 매핑함으로써, 깊은 네트워크에서 발생하는 폭발·소멸 현상의 근본 메커니즘을 밝힌다. 초기 가중치가 평균 0, 분산 C_W·n^{-1}인 가우시안으로 설정될 때, 각 층의 전활성(z) 분포는 2점 연결 상관함수(G)만으로 완전히 기술되는 자유장에 해당한다. 그러나 RePU는 비선형 지수 p>1을 적용함에 따라 고차 연결 상관함수(3점·4점 이상)가 비제로가 되며, 이는 “상호작용”을 도입해 RG 흐름을 비임계 상태로 만든다. 구체적으로, 전활성의 분산이 층을 거치며 q_{l+1}=C_W·E

RePU의 한계와 MRePU 제안: 효과적 장 이론으로 보는 안정적 딥러닝 활성화 함수

초록

상세 분석

댓글 및 학술 토론

의견 남기기