저차 통계와 클러스터링을 이용한 효과적인 연계 학습
초록
본 논문은 저차 통계 기반의 추정 분포 알고리즘(EDA)에 클러스터링을 결합하여, 정보 이론적 측정값으로 가이드된 조합 연산자를 제안한다. 이를 통해 다중 최적점과 복잡한 상호작용을 가진 벤치마크 문제에서 기존 저차 EDA보다 현저히 향상된 성능을 보인다.
상세 분석
이 연구는 진화 계산 분야에서 전통적인 고차 베이지안 네트워크 모델이 제공하는 높은 표현력을 유지하면서도, 계산 복잡도를 크게 낮출 수 있는 저차 통계 기반 EDA에 초점을 맞춘다. 저차 모델은 변수 간 1차 혹은 2차 상관관계만을 이용해 확률 모델을 구성하므로, 학습 비용이 적고 대규모 문제에 적용하기 용이하지만, 복잡한 변수 연계(linkage)를 포착하는 데 한계가 있다. 저자는 이러한 한계를 보완하기 위해 클러스터링을 niching 기법으로 도입한다. 클러스터링은 현재 집단을 여러 서브그룹으로 분할하여, 각 서브그룹이 서로 다른 지역 최적점이나 구조적 특성을 유지하도록 돕는다. 특히, 논문에서는 K‑means 기반의 군집화를 사용하되, 각 클러스터 내에서 저차 확률 모델을 독립적으로 학습한다.
핵심 기여는 “정보 이론적 결합 연산자”이다. 저자는 클러스터 간 상호 정보량(mutual information)을 계산하여, 어느 클러스터의 모델이 다른 클러스터와 가장 큰 정보 공유를 하는지를 정량화한다. 이 값이 높은 경우, 두 클러스터의 모델을 교차 결합하거나, 하나의 클러스터 모델을 다른 클러스터에 적용하는 방식으로 새로운 후보 해를 생성한다. 이렇게 하면 변수 간 고차 상호작용이 직접 모델에 포함되지 않더라도, 클러스터 간의 정보 교환을 통해 암묵적으로 연계 정보를 전달할 수 있다.
실험에서는 NK‑landscape, MAX‑SAT, 그리고 다중 피크 함수와 같은 대표적인 어려운 최적화 문제들을 사용하였다. 결과는 저차 모델만 사용한 기존 EDA 대비, 클러스터링과 정보 기반 결합 연산자를 적용한 알고리즘이 수렴 속도와 최종 최적값에서 모두 우수함을 보여준다. 특히, 다중 최적점을 가진 문제에서는 클러스터가 각각 다른 최적점 주변에 집중하면서 다양성을 유지하고, 정보 결합 연산자를 통해 서로 다른 최적점 간의 탐색이 촉진되는 현상이 관찰되었다.
이 논문은 저차 통계와 클러스터링을 결합함으로써, 고차 베이지안 네트워크의 복잡성을 회피하면서도 연계 학습 능력을 효과적으로 강화할 수 있음을 증명한다. 또한, 정보 이론을 활용한 모델 결합 전략은 EDA 설계에 새로운 패러다임을 제시한다는 점에서 학술적·실용적 의의가 크다.