동적 적합도 평가로 AutoML 일반화 향상

본 논문은 AutoML 시스템, 특히 진화적 컴퓨팅 기반 TPOT에서 흔히 사용되는 내부 k‑fold 교차검증이 반복적인 최적화 과정에서 발생시키는 과적합 문제를 해결하고자 한다. 기존 AutoML은 개발자가 데이터셋과 제한된 시간만 제공하면 자동으로 최적의 머신러닝 파이프라인을 탐색하도록 설계되었으며, 이를 위해 일반적으로 단일 k‑fold 교차검증(보통 k=5)을 사용해 적합도를 평가한다. 그러나 이러한 단일 폴드 분할은 세대가 진행될수록 동일한 폴드에 특화된 파이프라인이 선택되는 경향이 있어, 내부 검증 성능은 지속적으로 상승하지만 실제 테스트 데이터에 대한 일반화 성능은 오히려 정체되거나 감소한다. 이는 모델이 훈련 데이터에 과도하게 맞춰지는 전형적인 과적합 현상이다. 이를 극복하기 위해 저자들은 ‘동적 적합도’라는 새로운 평가 방식을 제안한다. 핵심 아이디어는 매 세대마다 무작위 시드에 따라 새로운 k‑fold 분할을 수행하고, 개체가 존재하는 모든 세대에 걸쳐 얻은 성능을 평균하여 최종 적합도로 사용하는 것이다. 이렇게 하면 개체의 전체 수명 동안 여러 번의 교차검증 결과가 누적되므로, 반복 k‑fold(r×k‑fold)과 유사한 일반화 추정 효과를 얻을 수 있다. 중요한 점은 r 값을 별도로 지정할 필요가 없으며, 전체 모델 학습 횟수는 기존 단일 k‑fold 대비 약 2배 정도만 증가한다는 점이다. 즉, 계산 비용을 크게 늘리지 않으면서도 보다 안정적인 적합도 추정치를 제공한다. 진화적 관점에서 보면, 동적 적합도는 ‘젊은 개체’에게 더 높은 생존 확률을 부여한다. 초기 세대에서 생성된 개체는 아직 충분히 평가되지 않았으므로, 이후 세대에서 파생된 개체가 기존 개체보다 적은 평가 횟수만으로도 경쟁할 수 있다. 이는 자연 선택 과정에서 ‘연령 기반 규제(ageing evolution)’와 유사하지만, 여기서는 연령이 아니라 평균 수명 성능이 핵심 규제 요소가 된다. 통계적 관점에서는 매 세대마다 다른 폴드 샘플을 사용함으로써 평가 편향을 감소시키고, 적합도 추정치의 분산을 낮춘다. 결과적으로, 모델이 훈련 데이터에 과도하게 맞춰지는 현상을 억제하고, 테스트 데이터에 대한 일반화 능력을 향상시킨다. 실험은 TPOT의 기본 설정을 그대로 유지하면서, 제안된 동적 적합도와 기존 단일 k‑fold 적합도를 동일 시간(예: 1시간) 내에서 비교하였다. 성능 평가지표는 가중 F1‑score와 파이프라인 복잡도(구성 요소 수)이며, 다목적 최적화는 NSGA‑II를 사용한다. 결과는 동적 적합도가 평균 테스트 F1‑score에서 약 2~3%p의 향상을 보이며, 복잡도 측면에서도 과도한 파이프라인 성장 없이 효율적인 모델을 찾는 것으로 나타났다. 또한, 계산 비용 분석에서 제안 방법은 r>2인 전통적인 반복 k‑fold 대비 모델 학습 횟수가 현저히 적어, 동일 시간 제한 하에서 더 많은 세대를 탐색할 수 있음을 확인했다. 논문의 주요 기여는 다음과 같다. 첫째, 적합도 함수를 세대별로 동적으로 업데이트하여 반복 k‑fold 효과를 저비용으로 구현하였다. 둘째, 이를 기존 EC 기반 AutoML에 거의 비용 없이 적용할 수 있는 간단한 구현 방식을 제시하였다. 셋째, 실험을 통해 일반화 성능이 실질적으로 향상됨을 입증하였다. 이러한 접근법은 TPOT뿐 아니라 다른 진화적 또는 베이지안 최적화 기반 AutoML 프레임워크에도 확장 가능하며, 특히 대규모 탐색 공간에서 지역 최적에 빠지는 문제를 완화하는 데 유용할 것으로 기대된다. 향후 연구에서는 다양한 데이터셋과 다른 AutoML 시스템에 대한 적용성을 검증하고, 동적 적합도와 다른 정규화 기법(예: dropout, L2 정규화)과의 시너지 효과를 탐색할 계획이다.

동적 적합도 평가로 AutoML 일반화 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기