Mish: 비선형 활성화 함수의 새로운 패러다임

본 논문은 최신 딥러닝 모델에서 활성화 함수가 차지하는 역할을 재조명하고, 새로운 비단조 비선형 함수인 Mish를 제안한다. Mish는 \(f(x)=x\tanh(\text{softplus}(x))\) 로 정의되며, softplus는 \(\ln(1+e^{x})\) 로 구현된다. 이 함수는 입력이 양수일 때 거의 선형에 가깝게 동작하면서도, 음수 영역에서는 \(-0.31\) 정도의 하한을 갖는다. 이러한 특성은 ReLU가 겪는 “죽은 뉴런” 현상을 방지하고, 동시에 포화 현상을 최소화해 그래디언트 소실을 억제한다. 논문은 Mish의 1차·2차 미분을 Swish와 비교 분석한다. Mish의 1차 미분은 \(\Delta(x)\)라는 전처리 계수를 포함하는 형태로, 이는 Swish의 미분에 비해 추가적인 스무딩 효과를 제공한다. 저자들은 \(\Delta(x)\)가 프리컨디셔닝 역할을 하여 손실곡면을 평탄하게 만들고, 최적화 속도를 높인다고 가정한다. 이러한 이론적 근거를 바탕으로 Mish가 자체 정규화(self‑regularization) 효과를 갖는다고 주장한다. 실험 부분에서는 다양한 네트워크와 데이터셋을 사용해 Mish의 성능을 검증한다. 먼저 6‑layer CNN을 CIFAR‑10에 적용해 50 epoch 동안 RMSProp으로 학습했으며, Mish가 Swish·ReLU보다 높은 검증 정확도를 기록했다. 이어서 MNIST에서 레이어 수를 증가시킨 실험에서는 15층 이상에서 Swish와 ReLU가 급격히 성능이 떨어지는 반면, Mish는 안정적인 정확도를 유지했다. 이는 Mish가 깊은 네트워크에서도 그래디언트 흐름을 보존한다는 증거다. 가중치 초기화와 입력 노이즈에 대한 내성도 평가했다. Glorot, He, LeCun 등 다양한 초기화 방법을 적용했을 때 Mish는 일관되게 Swish보다 높은 정확도를 보였으며, 입력에 가우시안 노이즈를 추가해도 테스트 손실이 가장 낮았다. 이는 Mish가 함수 자체의 정규화 특성으로 인해 외부 변동에 강인함을 나타낸다. 대규모 실험으로 ImageNet‑1k와 MS‑COCO를 사용했다. ResNet‑18/50, CSP‑DarkNet‑53, SpineNet‑49 등 여러 백본에 Mish를 적용했으며, 동일한 학습 스케줄·하이퍼파라미터 하에서 Top‑1 정확도와 AP\(_{50}^{val}\)에서 ReLU·Leaky‑ReLU 대비 각각 약 1 %와 2.1 %의 향상을 달성했다. 데이터 증강 기법(CutMix, 라벨 스무딩)과 결합했을 때도 Mish의 우위가 유지되었다. 통계적 검증을 위해 CIFAR‑10에 SqueezeNet을 사용해 23회 반복 실험을 수행했으며, Mish는 평균 정확도 87.48 %로 가장 높았고, 평균 손실도 두 번째로 낮았다. 표준편차 역시 경쟁 함수들보다 낮아 결과의 일관성을 보여준다. 시각화 측면에서는 5‑layer 무작위 초기화 네트워크의 출력 지형과 손실 지형을 비교했다. ReLU는 급격한 전이와 다중 로컬 미니마를 보이는 반면, Mish는 부드러운 지형과 넓은 최소값을 형성해 일반화에 유리함을 시각적으로 확인했다. 결론적으로, Mish는 비단조·부드러운 형태와 하한 제한을 통해 자체 정규화와 프리컨디셔닝 효과를 제공한다. 이는 깊은 신경망의 최적화 안정성을 높이고, 다양한 비전 과제에서 기존 활성화 함수들을 일관되게 능가한다. 논문은 Mish가 Swish와 유사하지만, 미분 구조와 하한 특성 덕분에 더 나은 학습 역학을 제공한다는 점을 강조한다.

Mish: 비선형 활성화 함수의 새로운 패러다임

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기