스스로 배우는 최적화 알고리즘

본 논문은 “알고리즘 설계 자동화”라는 큰 질문에 답하고자, 무제한 연속 최적화 알고리즘을 강화학습 프레임워크 안에서 정책 π로 모델링한다. 저자들은 먼저 최적화 문제를 유한 horizon MDP로 정의하고, 상태를 현재 위치와 최근 H=25개의 목표값·그라디언트 변화로 구성한다. 행동은 현재 위치에 더해지는 스텝 벡터이며, 이 스텝을 생성하는 함수 π가 바로 최적화 알고리즘이다. 비용 함수는 현재 목표값 자체를 사용해 “빠른 수렴”을 직접 보상한다는 설계가 특징이다. 정책은 평균을 신경망(단일 은닉층 50개, Softplus 활성화)으로, 분산은 학습 가능한 상수로 모델링한다. 행동은 독립적인 Gaussian으로 가정해 연속 제어에 적합하게 만든다. 정책 학습에는 Guided Policy Search(GPS)를 적용한다. GPS는 (i) 현재 정책에 맞는 목표 궤적을 선형‑가우시안 근사와 LQG를 이용해 최적화하고, (ii) 그 궤적을 지도 학습 데이터로 사용해 신경망 정책을 업데이트한다는 두 단계로 진행한다. 초기 목표 궤적은 모멘텀을 포함한 경사 하강법의 스텝을 그대로 사용해 안정성을 확보한다. 실험은 세 가지 대표적인 손실 함수에 대해 수행된다. 첫 번째는 3차원 로지스틱 회귀(볼록 손실)이며, 90개의 훈련 데이터셋과 100개의 테스트 데이터셋을 무작위 Gaussian 클러스터로 생성한다. 두 번째는 Geman‑McClure M‑estimator를 이용한 강인 선형 회귀(비볼록 손실)이며, 세 번째는 ReLU 활성화를 갖는 2‑계층 신경망(복합 비선형 손실)이다. 각 손실에 대해 학습된 자동 최적화기를 훈련하고, 기존 최적화 기법(GD, Momentum, Conjugate Gradient, L‑BFGS)을 동일한 초기점·에폭·하이퍼파라미터 최적화 조건 하에 비교한다. 결과는 다음과 같다. 로지스틱 회귀에서는 자동 최적화기가 평균 15% 적은 이터레이션으로 목표값을 1e‑4 이하로 감소시켰으며, 최종 손실도 기존 방법보다 8% 낮았다. 비볼록 회귀에서는 기존 2차 방법이 지역 최소에 머무르는 경우가 빈번했지만, 학습된 정책은 동적 스텝 크기와 방향을 조절해 전역 최소에 근접했다. 신경망 손실에서는 L‑BFGS가 종종 발산하거나 수렴이 느렸지만, 자동 최적화기는 평균 20% 빠른 수렴을 보이며 최종 정확도에서도 소폭 우위를 차지했다. 논문의 주요 기여는 (1) 최적화 알고리즘을 강화학습 정책으로 공식화해 메타‑학습 문제로 전환한 점, (2) GPS를 활용해 실제 연속 최적화 환경에서 효율적으로 정책을 학습한 점, (3) 학습된 정책이 다양한 손실 형태에서 기존 손으로 설계된 알고리즘을 능가한다는 실증적 증거를 제공한 점이다. 또한, 정책이 절대 좌표가 아닌 목표값·그라디언트 정보만을 입력으로 받아 문제에 대한 일반화 능력이 뛰어남을 보여준다. 향후 연구 방향으로는 (i) 헤시안 정보나 고차 미분 정보를 정책에 통합해 2차 이상의 정보 활용, (ii) 제약조건이 있는 최적화 문제(예: 라그랑주 승수 방식)로 확장, (iii) 대규모 딥러닝 모델 학습에 적용해 학습 속도와 일반화 성능을 동시에 향상시키는 방안이 제시된다. 이와 같이 본 논문은 메타‑최적화 분야에 새로운 패러다임을 제시하며, 자동화된 알고리즘 설계가 실제 응용에 실질적인 이점을 제공할 수 있음을 입증한다.

스스로 배우는 최적화 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기