밀집 신경망은 보편 근사기가 아니다
초록
**
본 논문은 가중치가 일정 범위 내에 제한된 ReLU 밀집 다층 퍼셉트론(MLP)이 Lipschitz 연속 함수 전체를 임의의 정밀도로 근사할 수 없음을 보인다. 저자들은 신경망을 메시지 패싱 그래프 신경망으로 해석하고, 약한 정규성 정리를 이용해 “강하게 밀집” 네트워크는 폭을 늘려도 표현력이 고정된 해상도에 포화한다는 정리(정리 9)를 제시한다. 또한, 모든 밀집 네트워크를 유한 크기의 네트워크로 압축할 수 있음을 보이는 부수 결과(정리 7)를 도출한다. 이를 통해 밀집 연결만으로는 진정한 보편 근사성을 확보할 수 없으며, 희소 연결이 필요함을 이론적으로 뒷받침한다.
**
상세 분석
**
이 논문은 기존 보편 근사 정리(예: Cybenko 1995, Hornik 1991)가 “가중치에 제한을 두지 않는다”는 전제에 의존한다는 점을 정확히 지적한다. 저자들은 B‑Strongly Dense Network라는 새로운 모델을 정의한다. 여기서는 모든 가중치와 편향이 절대값 ≤ B (고정 상수) 로 제한되며, 입력·출력 차원은 고정, 깊이 L 은 고정된 채 폭 dₗ 을 무한히 키울 수 있다. 이러한 제약은 실제 하드웨어에서 메모리·전력 제한을 반영한다는 점에서 의미가 있다.
핵심 기법은 두 단계로 구성된다. 첫째, 신경망을 메시지 패싱 그래프 신경망(MPNN) 으로 변환하고, 이를 커널 형태(연속적인 인접 행렬)로 임베딩한다. 둘째, 약한 정규성 정리(Weak Regularity Lemma) 를 적용해 큰 커널을 작은 단계 커널들의 합으로 근사한다. 이 과정에서 네트워크 전체를 O(1/ε²) 개의 “블록”으로 압축할 수 있음을 보이며, 각 블록은 폭이 제한된 작은 서브네트워크에 해당한다.
정리 9는 “폭을 무한히 늘려도 L‑∞ 오차 ε 보다 작게 만들 수 없는 Lipschitz 함수 집합”이 존재한다는 부정적 결과를 제시한다. 증명은 압축된 블록 수가 고정되므로, 입력 공간을 일정한 해상도로만 분할할 수 있음을 이용한다. 따라서 복잡한 함수의 미세 구조를 포착하려면 폭이 아닌 깊이를 늘리거나 희소 연결을 도입해야 한다는 결론에 도달한다.
부수 결과인 정리 7(또는 Corollary 7)은 모든 B‑Strongly Dense 네트워크가 유한 크기의 네트워크(파라미터 수가 B와 L에만 의존)로 근사 가능함을 보인다. 이는 기존 압축‑일반화 연구와는 달리, 표현력 자체의 한계를 직접적으로 드러낸다.
비판적으로 살펴보면, 가중치 절대값 제한 B 가 실제 학습 과정에서 얼마나 현실적인가에 대한 논의가 부족하다. 또한, 깊이를 고정하고 폭만 늘리는 설정은 현대 딥러닝에서 흔히 사용되는 “폭‑우선” 전략과는 차이가 있다. 따라서 정리 9가 실무에 미치는 영향은 “폭을 무한히 늘릴 수 없는 상황”에 한정될 수 있다. 그럼에도 불구하고, 희소성의 이론적 필요성을 명확히 제시한 점은 큰 의미가 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기