다목적 함수 없이 다목적 최적화를 위한 Adagrad‑유사 알고리즘과 수렴 속도 분석

다목적 함수 없이 다목적 최적화를 위한 Adagrad‑유사 알고리즘과 수렴 속도 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다목적 무제약 최적화 문제에서 목표 함수값을 직접 계산하지 않고, 공통 하강 방향만을 이용하는 Adagrad‑유사 알고리즘을 제안한다. 적응형 스텝 사이즈는 과거 하강 방향의 ℓ₂ 노름을 누적해 정의되며, Lipschitz 상수나 라인 서치를 필요로 하지 않는다. 이 알고리즘은 ‖공통 하강 방향‖에 대해 O(1/√k) 의 전역 수렴 속도를 보이며, 다양한 무제약 다목적 테스트와 간단한 다태스크 학습 사례에서 기존 1차 라인 서치 방법과 비교해 우수한 성능을 보인다. 또한 잡음이 있는 환경에서도 강인함을 확인하였다.

상세 분석

이 연구는 기존 다목적 최적화 알고리즘이 ‘우월성(dominance)’ 조건에 의존해 새로운 반복점을 받아들이는 한계를 극복하고자 한다. 저자들은 목표 함수값을 전혀 평가하지 않는 OFFO(Objective‑Function‑Free Optimization) 패러다임을 다목적 문제에 확장하였다. 핵심 아이디어는 각 목적 함수의 그래디언트를 가중합한 공통 하강 방향 gₖ = ∑{j=1}^m λₖ^j ∇f_j(xₖ) 를 구하고, 이를 ℓ₂ 노름의 누적값 wₖ=√(w{k‑1}²+‖gₖ‖²) 로 스케일링해 스텝 sₖ=−gₖ/wₖ 를 취하는 것이다. 여기서 λₖ는 ‘공통 하강 방향’ 문제 Ω(xₖ) 를 통해 얻는 비음수 가중치이며, ∑λₖ^j=1 을 만족한다. 이 구조는 기존 Adagrad‑Norm 의 신뢰구역 해석을 다목적 상황에 그대로 적용한 것으로, 라인 서치 없이도 충분히 큰 감소를 보장한다.

수렴 분석에서는 Φ(x)=max_j f_j(x) 를 보조 함수로 사용하지만 실제 알고리즘에서는 전혀 활용되지 않는다. 대신 ω(x)=min_{λ≥0,∑λ=1}‖∑λ_j∇f_j(x)‖² 를 정의해 Pareto 임계점 여부를 판단한다. Lemma 9와 Lemma 10을 통해 ‖gₖ‖²=ω(xₖ) 와 ‖gₖ‖²와 max_j∇f_j(xₖ)ᵀ(−gₖ) 사이의 정량적 관계를 확보하고, 이를 기반으로 전역 수렴률 O(1/√k) 를 증명한다. 중요한 점은 Lipschitz 상수 L_max 를 가정하되, 스텝 사이즈에 L을 명시적으로 삽입하지 않아도 된다.

실험에서는 30개 이상의 합성 다목적 테스트 함수와 MNIST 기반 다태스크 회귀/분류 문제를 사용했다. 제안 알고리즘은 평균 ω 감소와 최종 파레토 프론트 근사에서 라인 서치 기반 방법보다 빠르게 수렴했으며, 특히 잡음이 큰 경우(목표 함수에 가우시안 노이즈 추가)에서도 안정적인 진행을 보였다. 다만, 공통 하강 방향을 구하기 위한 Ω(x) 문제는 매 반복마다 작은 2차 계획법을 풀어야 하므로, 고차원·다목적 수가 매우 큰 경우 계산 비용이 증가할 수 있다.

전체적으로 이 논문은 다목적 최적화에서 목표 함수값을 전혀 사용하지 않는 새로운 설계 패러다임을 제시하고, 이론적 수렴 보장을 제공함으로써, 특히 대규모 딥러닝 멀티태스크 학습이나 잡음이 심한 실시간 제어 문제 등에 적용 가능성을 크게 확장한다.


댓글 및 학술 토론

Loading comments...

의견 남기기