목표 네트워크 업데이트 빈도의 최적 설계와 샘플 복잡도 개선

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 탭ular Q‑learning에서 목표 네트워크 업데이트 빈도(TUF)를 주기적인 외부 반복과 내부 SGD 최적화의 중첩 구조로 해석한다. 이론적 분석을 통해 고정된 TUF가 로그 수준의 샘플 복잡도 오버헤드를 초래함을 보이고, 학습 진행에 따라 기하급수적으로 TUF를 증가시키는 적응 스케줄이 최적임을 증명한다.

상세 분석

논문은 Q‑learning의 불안정성을 완화하기 위해 도입된 목표 네트워크(target network)의 업데이트 주기(TUF)를 ‘외부 가치 반복’과 ‘내부 손실 최소화’라는 두 단계의 중첩 최적화 문제로 재구성한다. 외부 루프는 Bellman 최적 연산자 (T^{*}) 를 근사하는 과정이며, 내부 루프는 현재 고정된 목표 (Q^{-}) 에 대해 SGD(또는 일반적인 stochastic optimizer)를 사용해 평균 제곱 Bellman 오차(MSBE)를 최소한다. 이때 (K_{n}) (즉, n번째 외부 반복에서 수행되는 내부 SGD 단계 수)가 바로 TUF에 해당한다.

주요 이론적 기여는 두 가지이다. 첫째, 내부 루프의 기대 오차 (\eta_{n}= \mathbb{E}!\left

목표 네트워크 업데이트 빈도의 최적 설계와 샘플 복잡도 개선

초록

상세 분석

댓글 및 학술 토론

의견 남기기