온라인 교차 엔트로피 방법의 새로운 변형

본 논문은 전통적인 교차 엔트로피 방법(CEM)이 배치 방식으로 동작한다는 점을 출발점으로 삼아, 이를 온라인 형태로 변형하는 두 가지 알고리즘을 제안한다. 먼저 CEM의 기본 구조를 소개한다. 조합 최적화 문제를 정의하고, 각 변수에 대해 독립적인 베르누이 분포를 가정한다. 초기 파라미터 p₀는 (½,…,½)로 설정하고, 배치 버전에서는 N개의 샘플을 한 번에 생성·평가한 뒤, 상위 ρ · N개의 엘리트 샘플을 선택한다. 엘리트 샘플들의 평균을 구해 pₜ₊₁ = (1−α)pₜ + α·p̂ 로 업데이트한다. 첫 번째 온라인 변형은 “슬라이딩 윈도우” 방식을 채택한다. 길이 N의 큐 Q를 유지하면서, 매 시간 단계 t에 새 샘플 x(t)를 생성·평가한다. Q에 새 샘플을 삽입하고, Q의 크기가 N을 초과하면 가장 오래된 샘플을 삭제한다. 현재 Q에 포함된 N개의 f값을 정렬해 ρ · N번째 값을 γₜ₊₁(엘리트 임계값)으로 설정한다. 새 샘플이 γₜ₊₁ 이상이면 엘리트로 판단하고, 파라미터를 α₁ = α/⌈ρN⌉ 비율로 이동한다: pₜ₊₁ = (1−α₁)pₜ + α₁·x(t). 이 과정은 매 샘플마다 즉시 수행되며, 정렬 비용을 삽입 정렬로 구현하면 O(log N) 시간 복잡도를 갖는다. 메모리 요구는 Q에 N개의 샘플을 저장하는 O(N)이다. 두 번째 변형은 “메모리리스” 버전이다. 여기서는 Q를 완전히 없애고, 엘리트 임계값 γₜ를 이전 값에 작은 증분 Δₜ를 더하거나 빼는 방식으로 근사한다. Δₜ는 네 가지 방법 중 하나로 추정한다. (1) 고정값 Δ, (2) 균등분포 가정에 기반한 Δᵤₙᵢ𝚏ₒ𝚛ₘ, (3) 정규분포 가정에 기반한 Δ𝓰ₐ𝚞𝚜𝚜, (4) 기타 분포에 대한 일반화된 추정. 온라인 업데이트는 엘리트 여부에 따라 γₜ₊₁ = γₜ ± ρ·Δₜ 로 조정하고, 파라미터는 동일하게 α₁ 비율로 이동한다. 이 방식은 메모리 사용이 상수이며, 연산도 O(1)이다. 수렴 분석에서는 기존 배치 CEM의 수렴 정리를 인용하고, 온라인 변형에서도 동일한 확률적 트랩드 랜덤 워크 구조가 유지된다는 점을 증명한다. 파라미터 pₜ,ᵢ는 매 엘리트 업데이트 시 α₁ 만큼 0 또는 1 방향으로 이동한다. 최소값 p_minₜ,ᵢ와 최대값 p_maxₜ,ᵢ를 통해 φₜ(최적 해가 생성될 확률)의 하한을 φ₁(1−α₁)ⁿᵗ 로 구한다. 이를 이용해 T→∞ 일 때 최적 해가 생성되지 않을 확률이 exp(−φ₁·h(α₁)·T) 형태로 급격히 감소함을 보인다. α₁을 충분히 작게 잡으면 h(α₁)가 0에 가까워져, 최적 해가 거의 확실히 샘플링될 수 있다. 또한, 엘리트가 전혀 발생하지 않는 무한 연속 구간이 존재할 확률이 0임을 보인다. 슬라이딩 윈도우 경우, 서로 독립적인 큐가 무한히 많이 존재하므로, 각 큐에서 엘리트가 발생하지 않을 확률은 (1−ρ)ᵏ → 0이다. 메모리리스 경우, 엘리트 임계값이 지속적으로 감소하면서 결국 함수값의 최소값보다 작아지게 되므로 모순이 발생한다. 따라서 두 온라인 알고리즘 모두 무한히 많은 업데이트가 일어나며, 파라미터는 결국 0 또는 1에 수렴한다. 결론적으로, 제안된 두 온라인 CEM 변형은 배치 CEM과 동일한 전역 최적화 보장을 제공하면서, 실시간 처리, 메모리 제한, 혹은 연산량 제한이 있는 환경에 적합하도록 설계되었다. 특히, 베르누이 파라미터를 이용한 조합 최적화 문제에 대해 초기 파라미터를 ½로 두고 α를 충분히 작게 설정하면, 최적 해가 확률 1에 수렴한다는 이론적 결과가 강조된다.

온라인 교차 엔트로피 방법의 새로운 변형

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기