학습으로 얻는 신경망 활성화 함수의 새로운 탐구
초록
본 논문은 각 뉴런의 활성화 함수를 고정된 형태가 아니라, 모든 뉴런이 공유하는 작은 신경망(Activation Function Unit, AFU)으로 파라미터화하여 학습 과정에서 동시에 최적화한다. XOR toy 문제, MNIST, CIFAR‑10을 대상으로 실험한 결과, 학습된 활성화 함수는 기존 ReLU·Leaky‑ReLU·Mish와 유사한 형태의 부드럽고 비포화(non‑saturating) 특성을 보이며, 성능 향상은 미미하지만 레이어별로 서로 다른 형태가 학습될 수 있음을 확인하였다. 또한, 학습된 활성화 함수가 손실 곡선을 부드럽게 만들어 잠재적인 정규화 효과를 제공할 가능성을 제시한다.
상세 분석
본 연구는 “활성화 함수 자체를 학습 가능한 파라미터로 두고, 전체 네트워크와 동시에 최적화한다”는 아이디어를 실험적으로 검증한다. 핵심 아이디어는 각 뉴런이 적용하는 활성화 함수를 동일한 구조의 작은 신경망, 즉 AFU(Activation Function Unit)로 대체하고, 이 AFU의 가중치와 편향을 전체 네트워크 학습 과정에서 역전파한다는 점이다. AFU는 단일 은닉층을 갖는 MLP 형태이며, 은닉 유닛 수(N)와 기본 활성화 함수(예: ReLU, Sigmoid)를 자유롭게 선택할 수 있다. 파라미터 공유 방식은 두 가지로 나뉜다. ① 모든 레이어와 뉴런이 동일한 AFU를 공유, ② 레이어별 혹은 뉴런별로 별도 AFU를 할당한다. 파라미터 증가량은 은닉 유닛 수에 비례하는 3N+1 정도에 불과해, 기존 네트워크에 비해 메모리·연산 비용이 크게 늘어나지 않는다.
실험은 네 단계로 진행되었다. 첫 번째는 2‑차원 XOR 형태의 toy 문제로, 4개의 은닉 뉴런이 하나의 AFU를 공유하도록 설정하고 힌지 손실과 Adam 옵티마이저를 사용했다. 학습 후 AFU는 초기 ReLU 기반 형태와 크게 달라져, 원점에 중심을 둔 방사형 기저 함수(RBF)와 유사한 곡선을 형성했다. 그러나 정확도는 기존 ReLU·Sigmoid·tanh와 차이가 없었다. 두 번째는 동일 구조의 5‑레이어, 각 레이어 10 뉴런 네트워크에서 AFU와 ReLU를 비교한 “smoothness analysis”이다. AFU를 적용한 경우 손실 표면이 더 부드럽게 변해, 경사도가 급격히 변하는 영역이 감소함을 시각적으로 확인하였다. 이는 활성화 함수가 비포화이며 연속적인 미분 가능성을 유지하기 때문에, 최적화 과정에서 암묵적인 정규화 효과를 제공할 가능성을 시사한다.
세 번째는 MNIST 분류에 대한 실험이다. 두 개의 합성곱 레이어와 두 개의 완전 연결 레이어로 구성된 네트워크에 대해 (i) 모든 레이어가 동일한 AFU를 공유, (ii) 레이어별로 독립적인 AFU를 사용하였다. 10 에폭 학습 후 정확도는 99.2%로 ReLU·tanh와 동일했으며, 성능 차이는 없었다. 그러나 학습된 AFU의 형태는 흥미로운 차이를 보였다. 전체 레이어에 동일 AFU를 적용했을 때는 Leaky‑ReLU와 유사한 선형‑비선형 혼합 형태가, 레이어별로 독립 AFU를 사용했을 때는 첫 번째 레이어에서 V‑shape, 두 번째 레이어에서 역 V‑shape(음의 구간에서 기울기가 큰 형태), 마지막 완전 연결 레이어에서는 거의 선형에 가까운 형태가 학습되었다. 이는 깊은 네트워크가 층마다 다른 비선형 특성을 필요로 할 수 있음을 암시한다.
네 번째는 CIFAR‑10에 MobileNetV2를 적용한 실험이다. 동일 AFU를 모든 레이어에 공유했을 때의 최종 정확도는 85.1%였으며, 이는 Mish 활성화(86.3%)에 약간 못 미쳤다. 그러나 학습된 AFU의 곡선은 Mish와 구조적으로 유사했으며, 특히 음의 구간에서 부드러운 곡선을 유지하는 특징을 보였다. 이는 AFU가 기존 설계된 활성화 함수와 비슷한 형태로 수렴할 가능성을 보여준다.
논문의 결론에서는 다음과 같은 주요 인사이트를 제시한다. (1) 학습된 활성화 함수는 성능을 저하시키지 않으며, 경우에 따라 미세한 향상이 가능하다. (2) 학습 과정에서 비포화·연속적인 함수 형태가 자연스럽게 도출된다. (3) 레이어별로 서로 다른 비선형 특성이 학습될 수 있으며, 특히 깊은 네트워크의 뒤쪽 레이어는 보다 선형에 가까운 활성화를 선호한다. (4) 이러한 특성은 손실 표면을 부드럽게 만들어 잠재적인 정규화 효과를 제공할 수 있다. (5) 기존 Mish와 유사한 형태가 자동으로 학습될 수 있음을 확인했으며, Mish의 파라미터를 추가로 조정하면 성능을 약간 개선할 여지가 있다. (6) 활성화 함수 학습을 메타러닝 문제로 재구성하면, 특정 단계에서의 손실 감소량을 메타‑손실로 활용해 더 빠른 수렴을 유도할 수 있다. 전반적으로, 활성화 함수를 고정된 설계가 아닌 데이터‑주도적으로 학습하는 접근법이 이론적·실험적 가치를 가지고 있음을 입증하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기