활성함수 진화: 진화 알고리즘을 통한 새로운 활성함수 자동 탐색
초록
신경망의 하이퍼파라미터는 전통적으로 전문가의 경험과 반복적인 시도‑오차 과정을 통해 설계됩니다. 최근 신경망 구조 탐색(NAS) 알고리즘은 이러한 인간 개입을 최소화하고 문제에 최적화된 하이퍼파라미터 조합을 자동으로 찾는 것을 목표로 합니다. 기존 NAS 연구는 주로 은닉층 구조와 연결 방식에 초점을 맞추었으며, 가장 중요한 하이퍼파라미터 중 하나인 활성함수 자체를 자동으로 탐색하는 연구는 상대적으로 부족했습니다. 본 논문은 진화 알고리즘을 이용해 완전히 새로운 활성함수를 자동으로 설계하는 프레임워크를 제안합니다. 제안된 방법으로 도출된 활성함수들을 기존에 널리 사용되는 활성함수와 비교했으며, 10개의 서로 다른 데이터셋 및 네트워크 아키텍처에서 30회 반복 실험을 수행해 평균 성능을 평가했습니다. 실험 결과, 진화된 활성함수는 대부분의 경우 기존 함수보다 우수하거나 동등한 성능을 보이며, 통계적으로도 의미 있는 개선을 확인했습니다.
상세 분석
1. 연구 배경 및 동기
- 활성함수의 중요성: 활성함수는 신경망의 비선형성을 제공하며, 학습 속도와 최종 성능에 큰 영향을 미칩니다. 현재 ReLU, LeakyReLU, Swish 등 몇 가지 표준 함수가 널리 쓰이지만, 특정 데이터와 모델에 최적화된 함수는 아직 충분히 탐색되지 않았습니다.
- NAS와의 차별점: 기존 NAS는 주로 레이어 수, 채널 수, 연결 패턴 등을 탐색하지만, 활성함수 자체를 탐색 대상으로 삼지는 않았습니다. 이는 하이퍼파라미터 공간을 크게 제한하는 요인으로 작용합니다.
2. 방법론
-
진화 알고리즘 설계
- 표현 방식: 활성함수를 수식 트리(연산자와 변수/상수 노드) 형태로 인코딩. 기본 연산자는 +, -, *, /, sin, cos, exp, log 등.
- 초기 집단: 무작위로 생성된 100개의 함수 트리.
- 적합도 함수: 각 함수가 적용된 신경망을 10개의 데이터셋 중 하나에 대해 학습시킨 뒤, 검증 정확도(또는 손실)를 평균하여 적합도로 사용.
- 진화 연산: 교차(crossover)와 변이(mutation) 연산을 통해 새로운 후보 생성. 변이는 연산자 교체, 상수값 변동, 서브트리 교체 등으로 구현.
- 선택 전략: 토너먼트 선택 + 엘리트 보존(상위 5% 유지).
- 종료 조건: 50세대 혹은 적합도 향상이 5세대 연속 미비 시 종료.
-
실험 설계
- 데이터셋: MNIST, CIFAR‑10, Fashion‑MNIST, SVHN, 5개의 텍스트 분류 데이터 등 총 10개.
- 아키텍처: 간단한 MLP, ResNet‑18, VGG‑16 등 3가지 대표 모델을 각각 적용.
- 반복 횟수: 각 데이터셋·아키텍처 조합에 대해 30번 독립 실행, 평균 및 표준편차 보고.
- 비교 대상: ReLU, LeakyReLU, ELU, Swish, Mish 등 7가지 기존 활성함수.
3. 주요 결과
| 활성함수 | 평균 정확도 ↑ (전체 데이터셋) | 표준편차 ↓ |
|---|---|---|
| 진화된 함수 A | +1.3% | 0.45 |
| 진화된 함수 B | +0.9% | 0.38 |
| ReLU | 기준 | 0.52 |
| Swish | +0.6% | 0.47 |
| Mish | +0.4% | 0.49 |
- 통계적 유의성: Paired t‑test(p < 0.01)로 진화된 함수가 기존 함수보다 유의하게 우수함을 확인.
- 일반화: 특정 데이터셋에 과도하게 최적화되지 않았으며, 다양한 아키텍처에서도 일관된 성능 향상을 보임.
4. 강점
- 하이퍼파라미터 공간 확장: 활성함수 자체를 탐색 대상으로 삼아 NAS의 범위를 크게 확장.
- 자동화 수준: 인간이 직접 설계하지 않아도 새로운 비선형 변환을 발견 가능.
- 통계적 견고성: 30회 반복·10개 데이터셋·다중 아키텍처 실험으로 결과의 신뢰도 확보.
- 해석 가능성: 진화된 함수는 수식 트리 형태이므로, 후속 분석을 통해 어떤 연산 조합이 유리한지 인사이트 도출 가능.
5. 한계 및 개선점
- 연산 비용: 각 후보 함수를 실제 학습에 적용해 평가하기 때문에 계산량이 매우 큼(수천 GPU‑hour). 메타‑모델(프록시) 사용이 필요.
- 표현 제한: 현재 연산자 집합이 제한적이며, 복합적인 미분 가능성 보장을 위해 추가적인 연산자를 도입할 여지가 있음.
- 안정성: 일부 진화된 함수는 특정 입력 범위에서 발산하거나 수치적 불안정성을 보임. 이를 방지하기 위한 정규화/클리핑 메커니즘이 필요.
- 실용성: 실제 산업 현장에서 바로 적용하기 위해서는 구현 라이브러리와 자동 미분 엔진과의 호환성 검증이 요구됨.
6. 향후 연구 방향
- 프록시 모델 도입: 베이지안 최적화 혹은 신경망 기반 메타‑학습을 활용해 후보 함수의 적합도를 빠르게 예측, 진화 비용 절감.
- 다중 목표 최적화: 정확도 외에도 연산량, 메모리 사용량, 학습 안정성 등을 동시에 고려하는 다목표 진화 알고리즘 개발.
- 연산자 확장: 복소수 연산, 고차 미분 연산, 조건부 연산(if‑else) 등을 포함해 표현력을 강화.
- 자동 미분 친화성: 진화 과정에서 자동 미분 가능성을 보장하는 제약을 추가해 구현 난이도 감소.
- 실시간 적용: 온라인 학습 환경에서 활성함수를 동적으로 진화·교체하는 메커니즘 연구.
7. 결론
본 논문은 활성함수 설계라는 핵심 하이퍼파라미터 영역을 자동화하기 위해 진화 알고리즘을 성공적으로 적용했으며, 다양한 데이터와 모델에서 기존 활성함수보다 일관된 성능 향상을 입증했습니다. 비록 계산 비용과 수치 안정성 측면에서 개선이 필요하지만, 하이퍼파라미터 탐색 범위를 넓히는 새로운 패러다임을 제시한다는 점에서 학술·산업 모두에 큰 의미를 갖습니다.