다양성과 정확도의 상관관계: 구조적 다양성을 활용한 다중 신경망 앙상블 연구

** 본 논문은 다중 신경망 앙상블에서 구조적 다양성이 분류 정확도에 미치는 영향을 체계적으로 조사한다. 서론에서는 기존 연구가 ‘출력 다양성’에 초점을 맞추었으며, 이는 동일한 구조를 가진 모델이 서로 다른 예측을 할 때만 다양하다고 보는 한계가 있음을 지적한다. 따라서 저자들은 은닉 노드 수와 활성화 함수를 변형시켜 구조적 다양성을 인위적으로 만들고, 이를 Shannon 엔트로피와 Simpson 지수라는 두 가지 생태학적 지표로 정량화한다. 데이터는 2001년 남아프리카 공화국의 산전 클리닉 설문에서 추출한 7개의 변수(연령, 교육 수준, 출산 횟수, 임신 횟수, 주, 부친 연령, HIV 상태)이며, HIV 양성/음성 라벨을 예측한다. 데이터 전처리 단계에서 부적합 레코드를 제거하고, 모든 변수는 0~1 구간으로 min‑max 정규화한다. 학습·검증·테스트 비율은 각각 60%·20%·20%로 나누어 과적합을 방지한다. 신경망은 다층 퍼셉트론(MLP) 구조를 사용하고, 학습률은 0.01, 학습 알고리즘은 quasi‑Newton 방식이며 100 epoch까지 학습한다. 은닉층 노드 수는 7에서 57까지, 활성화 함수는 로지스틱과 선형을 무작위로 조합한다. 초기에는 60% 이상의 학습 정확도를 보인 10개의 기본 모델을 생성하고, 이들을 ‘종’으로 간주한다. 다음으로 유전 알고리즘을 적용해 최적의 21개 모델 조합을 탐색한다. 염색체는 21개의 모델 인덱스로 구성되며, 적합도는 전체 앙상블의 정확도(다수결 투표)이다. 교차와 변이를 통해 새로운 조합을 생성하고, 50세대까지 진행한다. 최적 앙상블 크기는 실험적으로 21개로 결정되었으며, 이는 기존 문헌에서 제시된 25개와 유사한 수준이다. 앙상블의 성능 평가는 정확도, 혼동 행렬, 그리고 Q‑statistics(결과 다양성)로 수행한다. 정확도는 3%~6% 상승했으며, 최적 앙상블은 약 78%의 정확도를 기록한다(단일 모델 평균 72%). Shannon 및 Simpson 지수는 각각 0.62와 0.68 정도로, 구조적 다양성이 중간 수준임을 보여준다. 흥미롭게도 Q‑statistics는 0.88~0.91로 높은 상관성을 나타내어, 구조적으로 다른 모델이라도 최종 예측이 거의 일치함을 의미한다. 이는 구조적 다양성이 반드시 결과 다양성을 보장하지 않지만, 충분히 높은 구조적 이질성이 정확도 향상에 기여한다는 결론을 뒷받침한다. 논문의 주요 기여는 (1) 구조적 다양성을 정량화하는 두 가지 지표를 제안하고, (2) 유전 알고리즘을 이용해 정확도 기반 최적 앙상블을 자동 탐색한 점, (3) 실제 의료 데이터에 적용해 3~6%의 정확도 향상을 실증한 점이다. 한계로는 단일 도메인 데이터에 국한된 실험, GA 탐색 비용, 그리고 결과 다양성 측정이 제한적이었다는 점을 들 수 있다. 향후 연구에서는 다양한 도메인, 다른 기계학습 모델(예: 결정 트리, SVM)과의 비교, 다중 목표 최적화, 그리고 실시간 적용을 위한 경량화 전략을 제시한다. **

다양성과 정확도의 상관관계: 구조적 다양성을 활용한 다중 신경망 앙상블 연구

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기