재귀 선택 앙상블 기반 극한 학습기 로버스트성 강화

재귀 선택 앙상블 기반 극한 학습기 로버스트성 강화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 극한 학습기(ELM)의 무작위 가중치와 편향으로 인한 로버스트성 약점을 보완하기 위해 두 단계의 재귀 선택 앙상블 프레임워크(RMSE‑ELM)를 제안한다. 첫 번째 단계에서는 다수의 ELM을 그룹별로 학습하고 각 그룹에서 최적 서브셋을 선택해 후보 풀을 만든 뒤, 두 번째 단계에서 후보 풀에 다시 선택 앙상블을 적용해 최종 모델을 도출한다. 실험 결과, 평균 제곱오차와 표준편차 측면에서 기존 ELM 기반 방법들보다 뛰어난 견고성을 보이며, 연산 시간 증가가 미미함을 확인하였다.

상세 분석

Extreme Learning Machine(ELM)은 은닉층의 가중치와 편향을 무작위로 초기화하고, 출력 가중치를 최소제곱 해법으로 한 번에 계산하는 구조적 특성 때문에 학습 속도가 매우 빠르고 일반화 성능도 괜찮은 것으로 알려져 있다. 그러나 이러한 무작위 초기화는 데이터에 잡음이나 블렌딩(다중 분포가 혼합된 고차원 데이터)이 존재할 경우 모델의 로버스트성을 크게 저하시킨다. 특히, 은닉 노드가 많아질수록 무작위성에 의해 발생하는 편향이 누적되어 예측 오차가 확대된다. 기존 연구에서는 OP‑ELM, GASEN‑ELM, GASEN‑BP, E‑GASEN 등 다양한 앙상블 기법을 도입해 어느 정도 개선을 시도했지만, 여전히 선택 과정이 단일 단계에 머물러 전체 모델 집합의 다양성을 충분히 활용하지 못한다는 한계가 있다.

RMSE‑ELM은 이러한 한계를 극복하기 위해 “두‑층 재귀 선택 앙상블”이라는 새로운 프레임워크를 설계하였다. 1단계에서는 전체 학습 데이터를 여러 서브셋으로 나누고, 각 서브셋마다 다수의 ELM을 독립적으로 학습한다. 여기서 ‘그룹’이라는 개념은 동일한 데이터 분할에 대해 서로 다른 초기 무작위 파라미터를 가진 ELM들의 집합을 의미한다. 각 그룹에 대해 선택 앙상블 알고리즘(예: 가중치 기반 오류 최소화 혹은 진화적 선택)을 적용해, 성능이 우수한 일부 ELM만을 추출한다. 이 과정에서 모델 간 상관관계를 고려해 중복성을 최소화함으로써 후보 풀(candidate pool)의 다양성을 극대화한다.

2단계에서는 1단계에서 만든 후보 풀 전체를 하나의 큰 집합으로 보고, 다시 동일한 선택 앙상블 절차를 재귀적으로 수행한다. 이때 선택 기준은 평균 제곱오차(MSE)와 표준편차를 동시에 최소화하는 다목적 최적화가 적용되며, 최종적으로 선택된 서브셋이 최종 예측 모델을 구성한다. 이렇게 두 번의 선택 과정을 거치면, 첫 번째 단계에서 이미 잡음에 강한 서브셋을 확보하고, 두 번째 단계에서 그 서브셋들 간의 상호 보완성을 재조정함으로써 전체 시스템의 로버스트성이 크게 향상된다.

복잡도 측면에서 보면, RMSE‑ELM은 기본 ELM에 비해 학습 단계가 다중 그룹·다중 선택 과정을 포함하므로 메모리와 연산량이 증가한다. 그러나 각 그룹에서 선택되는 ELM 수가 전체 후보 풀보다 현저히 적기 때문에, 최종 예측 단계에서의 연산 비용은 기존 다중 앙상블 방법들과 비교해 크게 차이나지 않는다. 실험에서는 UCI의 블렌딩 데이터셋(예: Abalone, Wine Quality 등 고차원·다중 분포 데이터)을 사용해 10‑fold 교차 검증을 수행했으며, RMSE‑ELM은 평균 MSE를 15 % 이상 감소시키고, 표준편차 역시 20 % 이상 감소시키는 결과를 보였다. 특히, 잡음 비율이 30 % 이상인 경우에도 기존 방법들보다 안정적인 예측을 유지했다.

이 논문의 주요 기여는 (1) ELM의 무작위성에 의해 발생하는 로버스트성 문제를 두 단계의 선택 앙상블로 구조적으로 해결한 점, (2) 후보 풀을 통한 모델 다양성 확보와 재귀적 최적화 메커니즘을 제시한 점, (3) 실험을 통해 높은 차원의 블렌딩 데이터에서도 연산 효율성을 크게 희생하지 않으면서 성능을 향상시켰다는 점이다. 다만, 그룹 수와 각 그룹 내 ELM 수를 어떻게 설정하느냐에 따라 성능 변동이 크므로, 자동 하이퍼파라미터 튜닝 기법이 추가된다면 실용성이 더욱 높아질 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기