연속 회귀를 위한 엡실론 렉시케이스 선택
초록
본 논문은 기존 렉시케이스 선택이 연속형 오류 공간에서 성능이 저하되는 문제를 해결하고자, ε(엡실론)이라는 허용 오차 한계를 도입한 ε‑렉시케이스 선택 알고리즘을 제안한다. ε를 절대값, 상대값, 그리고 데이터 분포 기반의 MAD(중앙절대편차)로 정의하는 네 가지 변형을 실험적으로 비교하고, 자동 ε 조정 방식을 도입해 실세계 및 합성 회귀 문제에서 기존 토너먼트, 연령‑적합도 파레토(AFP) 등과 비교하였다. 실험 결과 ε‑렉시케이스 선택이 모델 정확도와 행동 다양성 측면에서 가장 우수함을 확인했으며, 계산 비용은 거의 증가하지 않았다.
상세 분석
이 연구는 유전 프로그래밍(GP)에서 부모 선택 전략이 탐색 효율에 미치는 영향을 심도 있게 탐구한다. 기존 렉시케이스 선택은 각 테스트 케이스를 ‘필터’로 사용해 가장 낮은 오류를 보인 개체만을 통과시키는 방식인데, 연속형 회귀에서는 대부분의 개체가 동일한 최적 오류를 공유하지 못해 거의 한 케이스만 통과하게 된다. 이는 선택 압력이 지나치게 제한적이어서 탐색 다양성이 감소하고, 결국 모델 일반화 성능이 저하되는 원인으로 작용한다.
논문은 이를 극복하기 위해 ε‑lexicase라는 변형을 제안한다. 핵심 아이디어는 ‘패스 조건’을 완화하여, 특정 테스트 케이스에서 최적 오류와의 차이가 ε 이하인 개체를 모두 통과시키는 것이다. ε는 네 가지 방식으로 정의된다. 첫 번째는 상대적 허용오차 ε_e 로, 현재 케이스의 최적 오류 e*에 (1+ε_e) 배를 곱한 값 이하이면 통과한다. 두 번째는 절대적 허용오차 ε_y 로, 목표값 y_t와의 절대 차이가 ε_y 이하인 경우를 허용한다. 세 번째와 네 번째는 각각 ε_eλ, ε_yλ 로, 데이터 전체에 대한 오류 분포의 중앙절대편차(MAD) λ를 이용해 동적으로 임계값을 설정한다. 특히 λ 기반 방법은 개체군의 현재 성능에 따라 자동으로 조정되므로, 문제마다 ε를 별도로 튜닝할 필요가 없다는 장점이 있다.
알고리즘 복잡도 측면에서도 논문은 기존 렉시케이스 선택의 최악 경우 O(|P|²·N)와 비교해, 실제 실행에서는 대부분의 경우 필터링이 조기에 종료되므로 실질적인 오버헤드가 미미함을 실험적으로 입증한다. 또한 ε‑lexicase가 더 많은 테스트 케이스를 활용해 부모를 선택함으로써, 개체군이 다양한 부분 문제에 특화된 서브솔루션을 유지하게 되고, 이는 행동 다양성(behavioral diversity)의 급격한 증가로 이어진다.
실험 설계는 3개의 합성 문제와 3개의 실제 데이터셋(보스턴 주택, 증류탑, 풍력 터빈 등)을 사용했으며, 각 문제에 대해 30번의 독립 실행을 수행했다. 비교 대상으로는 표준 렉시케이스, 토너먼트 선택(크기 2), 무작위 선택, 그리고 연령‑적합도 파레토(AFP) 생존 전략을 포함했다. 성능 평가는 테스트 세트에 대한 평균 절대오차(MAE)와 훈련/테스트 간 일반화 격차, 그리고 행동 다양성 지표(개체당 고유 오류 패턴 수)로 이루어졌다.
결과는 ε‑lexicase 변형 중 자동 λ 기반(ε_eλ, ε_yλ)이 가장 일관되게 우수한 MAE를 기록했으며, 특히 노이즈가 존재하는 실제 데이터에서 기존 렉시케이스가 거의 개선되지 못한 반면, ε‑lexicase는 평균 12%18% 정도의 오류 감소를 보였다. 행동 다양성 측면에서도 ε‑lexicase는 표준 렉시케이스 대비 23배 높은 고유 오류 패턴을 유지했으며, 이는 탐색 공간을 보다 넓게 커버한다는 증거이다. 계산 시간은 토너먼트와 거의 동일하거나 약간만 증가했으며, 전체 실행 시간 대비 5% 이하의 오버헤드에 그쳤다.
이러한 분석을 통해 논문은 ε‑lexicase가 연속형 회귀 문제에서 기존 선택 메커니즘의 한계를 효과적으로 보완하고, 자동 ε 조정 메커니즘이 실용적인 적용 가능성을 크게 높인다는 결론을 도출한다. 또한 선택 압력과 다양성 유지 사이의 균형을 동적으로 조절함으로써, GP가 복잡한 실세계 시스템 식별 과제에 더 적합한 탐색 전략을 제공한다는 점을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기