거리 기반 편향을 활용한 모델 주도 최적화

초록

본 논문은 변수 간 거리 메트릭을 이용해 상호작용 강도를 예측하고, 이전 실행에서 얻은 확률 모델 정보를 재활용함으로써 가산 분해 문제와 계층적 베이지안 최적화 알고리즘(HBOA)의 탐색 효율을 크게 향상시키는 방법을 제안한다. 제안 기법은 문제 특유의 거리 구조와 경험 기반 모델을 결합해 새로운 인스턴스에 대한 학습 비용을 감소시키며, 기존 학습‑전이 기법보다 실용적이고 범용성이 높다.

상세 분석

이 연구는 두 가지 핵심 아이디어를 결합한다. 첫 번째는 “거리 메트릭” 개념으로, 변수 집합 V 에 대해 정의된 거리 d(i,j) 가 클수록 해당 변수 쌍 (x_i, x_j) 의 상호작용 가능성이 낮아진다는 가정을 기반으로 한다. 이는 가산 분해 문제(ADD)에서 흔히 관찰되는 현상으로, 예를 들어 인접한 비트가 같은 서브함수에 포함될 확률이 높고, 멀리 떨어진 비트는 서로 다른 서브함수에 속할 가능성이 크다. 두 번째는 “경험 기반 모델 편향”이다. 기존의 추정 분포 알고리즘(EDA), 특히 계층적 베이지안 최적화 알고리즘(HBOA)은 매 세대마다 베이지안 네트워크 구조를 학습한다. 논문은 과거 실행에서 수집된 네트워크 에지 빈도 P(e | d) — 즉, 특정 거리 d 에 해당하는 에지가 나타날 확률—을 저장하고, 이를 새로운 실행 시 사전 확률로 활용한다. 구체적으로, 새로운 문제 인스턴스에 대해 초기 베이지안 네트워크를 구성할 때, 거리 d 에 비례하는 P(e | d) 값을 에지 선택에 가중치로 적용한다. 이렇게 하면 “가까운 변수 간 에지”가 더 높은 사전 확률을 갖게 되어, 탐색 초기에 실제 상호작용이 강한 변수 쌍을 빠르게 포착한다.

알고리즘 흐름은 다음과 같다. (1) 문제 정의 단계에서 변수 간 거리 메트릭을 설계한다. (2) 동일한 문제 클래스에 대해 여러 번 HBOA를 실행하고, 각 실행에서 학습된 베이지안 네트워크의 에지 집합을 기록한다. (3) 거리별 에지 발생 빈도를 통계적으로 집계해 P(e | d) 를 추정한다. (4) 새로운 인스턴스에 대해 초기 모델을 생성할 때, P(e | d) 를 사전 확률로 삽입해 모델 구조 탐색 공간을 제한한다. (5) 이후 표준 HBOA 절차(샘플링, 선택, 재학습)를 진행한다.

실험 결과는 두 가지 관점에서 평가된다. 첫째, 수렴 속도(세대 수)와 최적 해 도달 확률이 크게 개선되었으며, 특히 변수 수가 200~500인 대규모 ADD에서 평균 30 % 이상의 세대 절감 효과를 보였다. 둘째, 모델의 일반화 능력이다. 동일한 거리 메트릭을 사용했지만, 서브함수 구성이나 가중치가 달라진 새로운 인스턴스에서도 학습된 P(e | d) 가 유의미하게 작용해, 사전 지식 없이도 빠른 적응이 가능했다.

이 접근법의 장점은 (i) 거리 메트릭만 정의하면 별도의 도메인 지식 없이도 적용 가능하고, (ii) 기존 EDA 프레임워크에 최소한의 수정만으로 통합할 수 있다는 점이다. 또한, 메트릭이 잘 정의되지 않은 경우에도, 경험 기반 에지 빈도 자체가 암묵적인 거리 정보를 제공하므로, 완전한 메트릭 없이도 어느 정도 편향 효과를 기대할 수 있다. 한계점으로는 (a) 거리 메트릭 설계가 문제마다 다소 주관적일 수 있고, (b) 초기 사전 확률이 부정확하면 오히려 탐색을 편향시켜 성능 저하를 일으킬 위험이 있다. 향후 연구에서는 자동 메트릭 학습, 다중 메트릭 결합, 그리고 비가산 분해 문제에 대한 확장 가능성을 탐색할 계획이다.