시맨틱 유전 프로그래밍을 위한 새로운 부모 선택 휴리스틱
본 논문은 시맨틱 유전 프로그래밍(GP)에서 부모 선택 시 적합도 함수를 완전히 배제하고, 함수 특성에 기반한 세 가지 유사도 휴리스틱(코사인 유사도, 피어슨 상관, agreement)을 제안한다. addition, Naive Bayes, Nearest Centroid 연산에 영감을 받아 설계된 이 휴리스틱은 30개의 분류 데이터셋에서 무작위 선택, 기존 선택 기법, 최신 분류기와 비교했을 때 통계적으로 유의미한 성능 향상을 보이며, 특히 ag…
저자: Claudia N. Sanchez, Mario Graff
본 논문은 시맨틱 유전 프로그래밍(SGP)에서 부모 선택 과정을 재설계하여, 적합도 함수를 완전히 배제하고 함수 특성에 기반한 휴리스틱을 도입한다. 기존 GP는 적합도 기반 선택이 일반적이었으며, 최근에는 시맨틱 간 각도나 오류 벡터를 활용한 다양한 선택 기법(예: ADS, Novelty Search)이 제안되었다. 그러나 함수 집합 자체가 탐색 공간을 정의한다는 점을 고려한 선택 전략은 아직 연구가 부족했다. 저자들은 이 틈새를 메우기 위해 addition, Naive Bayes, Nearest Centroid 연산에 영감을 받은 세 가지 부모 선택 휴리스틱을 설계하였다.
각 휴리스틱은 특정 연산이 적용될 때 부모 후보들의 시맨틱 유사도를 측정한다. 코사인 유사도는 두 시맨틱 벡터 사이의 각도를 직접 반영해, 연산 결과가 서로 다른 방향성을 가질 경우를 선호한다. 피어슨 상관계수는 선형 관계 강도를 평가하며, 이는 기존 ADS와 유사하지만 연산별로 적용 범위를 제한한다는 차이가 있다. 마지막으로 agreement(일치도)는 이산형 출력(분류)에서 두 부모가 동일한 클래스를 예측하는 비율을 측정한다. 이 세 가지 유사도는 각각 addition, Naive Bayes, Nearest Centroid 함수와 매핑되어, 해당 함수가 사용될 때 가장 적합한 부모 쌍을 선택한다.
실험 플랫폼은 steady‑state GP 시스템인 EvoDAG이며, 이는 기존의 기하학적 시맨틱 연산자를 기반으로 한다. EvoDAG에서는 부모 선택과 동시에 대체(negative selection) 단계가 존재한다. 본 연구에서는 부모 선택에 제안된 휴리스틱을 적용하고, 대체 단계에서는 무작위 선택 또는 전통적인 적합도 기반 선택을 조합하였다. 특히, agreement‑based 선택과 무작위 대체를 결합한 조합이 가장 뛰어난 성능을 보였다.
성능 평가는 30개의 공개 분류 데이터셋(샘플 수 100~수천, 특성 수 10~수백, 클래스 수 2~다중)에서 수행되었으며, 비교 대상에는 Random Selection, ADS, Novelty Search, 그리고 18개의 최신 머신러닝/AutoML 분류기(TPOT, Auto‑sklearn, H2O AutoML 등)가 포함되었다. 평가 지표는 macro‑F1 점수와 통계적 유의성을 중심으로 하였으며, Friedman 테스트와 Nemenyi 사후 검정을 통해 결과의 신뢰성을 확보하였다. 제안 방법은 전통적 적합도 기반 선택, ADS, Novelty Search보다 일관되게 높은 순위를 차지했으며, 특히 agreement‑based 선택과 무작위 대체 조합은 평균적으로 3~5% 정도의 macro‑F1 향상을 기록했다. 또한, TPOT과 거의 동등한 성능을 보였지만, 두 방법 간 차이는 통계적으로 유의미하지 않았다.
코드와 실험 파이프라인은 GitHub에 오픈소스로 공개되어, 연구 재현성과 확장성을 보장한다. 논문은 또한 한계점으로 현재는 세 가지 함수에만 적용 가능하고, 다중 함수 조합이나 연속형 출력에 대한 확장은 미비함을 지적한다. 향후 연구 방향으로는 동적 함수 선택 메커니즘, 다목적 최적화(예: 정확도와 모델 복잡도 동시 최적화), 그리고 시맨틱 기반 클러스터링을 활용한 새로운 선택 전략을 제안한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기