TD 학습에 숨겨진 위버‑페히너 법칙: 제어‑추론에서 비선형 업데이트 규칙 도출
초록
본 논문은 제어‑추론 프레임워크에서 표준 TD 학습을 유도할 때 생략된 비선형 항을 분석하여, 업데이트 크기가 가치 함수의 크기에 로그‑스케일로 억제되는 위버‑페히너 법칙을 발견한다. 이를 보상‑벌점 구조와 최적성 정의 수정에 적용한 알고리즘은 초기 보상 획득을 가속하고, 학습 과정에서 벌점을 효과적으로 억제함을 시뮬레이션 및 로봇 실험으로 입증한다.
상세 분석
논문은 강화학습을 확률적 최적제어 문제인 “Control as Inference” 로 재구성하고, 최적성 변수 O∈{0,1} 의 베이즈 추론을 통해 정책 π와 가치 V를 최적화한다. 이 과정에서 KL 발산을 최소화하는 목표식을 설정하고, 파라미터 θ(가치)와 ϕ(정책)에 대한 그래디언트를 도출한다. 기존 연구는 미지의 보상 상한 R 때문에 p_V와 p_Q 를 계산할 수 없어 λ_β→0 (즉, β→∞) 를 가정, 즉 비선형 항 δ_ln=ln(1−p_V)−ln(1−p_Q) 를 무시하고 선형 TD 오차 δ에만 의존하는 업데이트 규칙을 얻었다.
본 연구는 이 비선형 항을 유지한 채 수치적으로 분석한다. λ_β∈(0,1) (β가 작아질수록 최적성이 불확실해짐) 에 따라 (1−λ_β)δ+λ_βδ_ln 의 등고선을 시각화했을 때, λ_β가 작을 때는 등고선이 V=Q에 평행하게 일정 간격을 유지해 선형 업데이트가 지배함을 확인한다. 반면 λ_β가 크면 등고선이 보상 상한 R을 중심으로 방사형으로 퍼지며, 가치가 R에 가까울수록 작은 δ에도 큰 업데이트가 발생하고, R에서 멀어질수록 큰 δ가 필요하게 된다. 이는 가치 함수가 큰 “자극 강도”일수록 변화에 대한 감도가 감소한다는 위버‑페히너 법칙과 일치한다.
수학적으로는 p_V와 p_Q 를 R 주변에서 1차 테일러 전개하여 p_V≈1+β(V−R), p_Q≈1+β(Q−R) 로 근사하고, δ_ln≈−ln
댓글 및 학술 토론
Loading comments...
의견 남기기