극한 학습 머신에서 입력 가중치의 명시적 계산

초록

본 논문은 다층 퍼셉트론의 입력 가중치를 훈련 데이터의 선형 결합 형태로 명시적으로 계산하는 방법을 제시한다. 이 가중치는 무작위 대신 훈련 샘플의 선형 조합으로 초기화되며, 이후 은닉층 출력의 의사역행렬을 이용해 출력 가중치를 한 번에 구한다. 실험 결과, 동일한 은닉 뉴런 수를 가진 기존 ELM보다 정확도와 일관성이 향상됨을 확인하였다.

상세 분석

이 연구는 Extreme Learning Machine(ELM)의 핵심 가정인 “입력 가중치는 무작위로 설정하고, 은닉층 출력만을 이용해 출력 가중치를 선형 시스템으로 푸는” 접근법을 재검토한다. 기존 ELM에서는 입력 가중치를 완전히 무작위로 초기화함으로써 학습 속도를 극대화하지만, 무작위성에 의해 발생하는 성능 변동성이 문제점으로 지적되어 왔다. 저자들은 이 문제를 해결하기 위해 입력 가중치를 훈련 데이터의 선형 결합, 즉 (\mathbf{w}i = \sum{j=1}^{N} \alpha_{ij}\mathbf{x}j) 형태로 정의한다. 여기서 (\alpha{ij})는 무작위 혹은 사전 정의된 스칼라 계수이며, (\mathbf{x}_j)는 입력 샘플이다. 이 식은 선형 SVM에서 최적 초평면을 정의할 때 사용하는 라그랑주 승수와 동일한 구조를 갖는다. 따라서 입력 가중치는 데이터 분포를 반영하면서도 계산 비용은 O(N·L) 수준으로 유지된다(N: 샘플 수, L: 은닉 뉴런 수).

다음 단계에서는 은닉층 활성화 함수를 통과한 후의 출력 행렬 (\mathbf{H})를 구성하고, 목표 출력 (\mathbf{T})와의 최소 제곱 해를 구한다. 전통적인 ELM과 동일하게 (\mathbf{\beta} = \mathbf{H}^{\dagger}\mathbf{T}) (여기서 (\dagger)는 의사역행렬) 를 사용하지만, 입력 가중치가 데이터 기반이므로 (\mathbf{H})의 스펙트럼 특성이 개선된다. 실험에서는 (\mathbf{H})의 조건수가 크게 감소하여 수치적 안정성이 향상되고, 과적합 위험이 낮아진다. 또한, 입력 가중치를 선형 결합으로 정의함으로써 동일한 네트워크 구조에서도 여러 번 실행했을 때 결과가 크게 변동하지 않아 재현성이 높아진다.

실험 설정은 대표적인 회귀와 분류 벤치마크(예: Boston Housing, MNIST, ISOLET 등)를 사용하였다. 각 데이터셋에 대해 은닉 뉴런 수를 동일하게 유지하고, 무작위 입력 가중치를 사용하는 표준 ELM과 제안 방법을 비교하였다. 결과는 평균 정확도, 표준 편차, 학습 시간 측면에서 제안 방법이 우수함을 보여준다. 특히, 고차원 데이터(예: 이미지)에서는 입력 가중치가 데이터 구조를 반영함으로써 차원 축소 효과가 자연스럽게 발생해 은닉층의 표현력이 강화된다. 시간 복잡도는 입력 가중치 계산 단계가 추가되지만, 이는 단순 행렬 곱셈이므로 GPU 가속 시 무시할 수준이다.

이 논문의 주요 기여는 다음과 같다. 첫째, 입력 가중치를 무작위가 아닌 데이터 기반 선형 결합으로 정의함으로써 ELM의 핵심 장점인 빠른 학습을 유지하면서도 성능 변동성을 크게 감소시켰다. 둘째, 기존 SVM의 라그랑주 승수와 유사한 형태를 차용함으로써 이론적 연결 고리를 제공하고, 향후 커널 확장이나 정규화 기법과의 통합 가능성을 열었다. 셋째, 전체 학습 과정을 “단일 패스”로 구현할 수 있어 메모리 사용량이 제한된 임베디드 환경에서도 적용 가능하다. 향후 연구에서는 (\alpha_{ij})를 최적화하거나, 비선형 커널 함수를 도입해 입력 가중치의 표현력을 더욱 강화하는 방안을 탐색할 수 있다.