제약 완화와 강화학습을 결합한 비용 제한 최적화 혁신
초록
**
본 논문은 제한된 평가 예산 하에서 복잡한 제약 최적화 문제를 해결하기 위해, 제약 완화(ε‑relaxation) 수준을 동적으로 조절하는 강화학습 기반 메타‑알고리즘(RLECEO)을 제안한다. 10차원의 상태 벡터와 11가지 이산 행동을 이용해 Double Deep Q‑Network가 ε 값을 제어하도록 학습시키고, CEC‑2017 제약 최적화 벤치마크에서 기존 최고 성능 기법들을 능가하거나 동등한 결과를 얻었다.
**
상세 분석
**
RLECEO는 메타‑블랙박스 최적화(Meta‑BBO) 프레임워크 안에서 강화학습을 활용한 제약 처리 정책을 자동으로 설계한다. 먼저 최적화 과정의 동적 특성을 포착하기 위해 10차원 상태 벡터를 정의했는데, 여기에는 탐색‑활용 균형을 나타내는 FLA·ELA 기반 피처(S1‑S4), 목표 함수 진행도(S5), 제약 위반 평균·최소 위반 상위 5개 평균(S6), 현재 feasible 비율(S7), 평가 예산 사용률(S8), 이전 행동(S9), 그리고 목표·제약 위반 간 상관관계(S10) 등이 포함된다. 이러한 풍부한 상태 정보는 에이전트가 현재 최적화 단계가 탐색 중심인지, 혹은 수렴 단계인지를 정확히 판단하도록 돕는다.
행동 공간은 ε‑relaxation 값을 조절하는 11개의 이산 값(0, 0.1, …, 1)으로 구성된다. ε는 기본 위반 값(ε_base)과 선택된 행동 a_t에 따라 ε_t = (ε_base)^{a_t}·δ 로 계산되며, δ=1e‑3은 최소 완화 한계이다. a_t가 작을수록 제약 위반을 엄격히 억제해 탐색을 제한하고, a_t가 클수록 완화를 확대해 목표 함수 최적화에 집중한다.
보상 설계는 목표 함수 개선(r1)과 제약 위반 감소(r2)를 동시에 고려한다. r1은 현재와 이전 최적 목표값의 비율을 사용해 목표 함수 향상을 정량화하고, r2는 상위 5개 위반 평균의 감소율을 이용한다. 또한 γ라는 동적 가중치를 도입해 제약 위반이 크게 남아 있을 때는 r2의 비중을 높이고, 목표 함수 개선 신호는 억제한다. 최종 보상 r_t = (r1·(1‑γ) + r2)/2 로 정의되어, 두 신호가 상황에 맞게 자동 조정된다.
학습은 CEC‑2017 제약 최적화 문제 28개를 사용해 메타‑에피소드 형태로 진행되며, Double DQN 구조와 경험 재플레이를 통해 안정적인 정책 수렴을 달성한다. 실험에서는 고정 ε 전략, 기존 적응형 ε 전략, 그리고 최신 메타‑진화 기법들을 비교했을 때, RLECEO가 평균 성능과 최악‑케이스 성능 모두에서 우수함을 보였다. 교차 검증(Leave‑one‑out)과 일반적인 train‑test 분할에서도 일관된 일반화 능력을 확인했으며, Ablation Study를 통해 상태 피처, γ 가중치, 행동 이산화가 각각 성능에 미치는 영향을 정량화하였다.
이 연구는 제약 최적화에서 인간 설계에 의존하던 ε‑relaxation 조절을 데이터‑드리븐 강화학습으로 대체함으로써, 제한된 평가 예산 하에서도 탐색‑활용 균형을 자동으로 맞출 수 있음을 입증한다. 또한 메타‑레벨 정책이 다양한 제약 구조와 차원에 대해 일반화 가능함을 실증함으로써, 향후 실세계 엔지니어링 설계, 자동화된 파라미터 튜닝 등 비용‑민감형 최적화 분야에 적용 가능성을 크게 확장한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기