진화적 특징 구성의 일반화 향상을 위한 근접 젠슨 갭 최소화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 유전 프로그래밍 기반 특징 구성에서 발생하는 과적합 문제를 해결하기 위해, 근접 위험(Vicinal Risk)을 경험적 위험과 정규화 항(근접 젠슨 갭 또는 유한 차분)으로 분해한다. 제안된 프레임워크는 경험적 손실과 근접 젠슨 갭을 동시에 최소화하며, 데이터의 잡음 수준을 추정해 정규화 강도를 동적으로 조절한다. 또한, 데이터 매니폴드 밖의 비현실적 샘플 생성을 방지하는 매니폴드 침입 탐지 기법을 도입한다. 58개의 회귀 데이터셋 실험에서 제안 방법이 기존 복잡도 기반 규제보다 우수함을 입증하고, 15개 머신러닝 알고리즘과 비교했을 때 최고의 성능을 기록한다.

상세 분석

이 연구는 GP 기반 자동 특징 생성이 높은 표현력에도 불구하고 훈련 데이터에 과도하게 적합되는(overfitting) 경향을 보이는 점에 주목한다. 기존에는 모델 크기나 트리 깊이와 같은 구조적 복잡도 지표를 사용해 규제했지만, 이러한 지표는 함수 형태의 복잡성을 충분히 반영하지 못한다는 한계가 있었다. 저자들은 이를 보완하기 위해 Vicinal Risk Minimization(VRM) 개념을 도입한다. VRM은 원본 샘플 주변에 인공적으로 생성된 근접 샘플(노이즈 교란 혹은 mixup)을 이용해 손실을 평가함으로써 모델의 지역적 평활성을 강화한다. 핵심 이론적 기여는 두 가지 정리이다. 첫 번째 정리에서는 노이즈 교란을 통한 근접 위험이 경험적 위험과 모델 출력의 유한 차분(또는 미분 근사) 사이의 상한으로 분해될 수 있음을 보인다. 이는 (yᵥᵢ−f(xᵥᵢ))² ≤ 2(yᵢ−f(xᵢ))²+2(f(xᵢ)−f(xᵢ+ε))² 형태로 표현되며, 두 번째 항이 정규화 항으로 작용한다. 두 번째 정리에서는 mixup 방식에서 생성된 근접 샘플에 대해 Jensen Gap 형태의 정규화 항을 도출한다. 구체적으로 (yᵥ−f(xᵥ))² ≤ 3·

진화적 특징 구성의 일반화 향상을 위한 근접 젠슨 갭 최소화

초록

상세 분석

댓글 및 학술 토론

의견 남기기