연속시간 q 학습을 이용한 점프 확산 모델의 Tsallis 엔트로피 정규화 최적제어
초록
본 논문은 점프‑확산 과정에 연속시간 q‑학습을 적용하고, Shannon 엔트로피 대신 Tsallis 엔트로피를 정규화 항으로 도입한다. Tsallis 엔트로피는 최적 정책이 Gibbs 형태가 아니게 만들며, 이를 보장하기 위해 라그랑주 승수와 KKT 조건을 사용한다. 저자는 q‑함수의 마팅게일 특성을 증명하고, 라그랑주 승수를 명시적으로 구할 수 있는 경우와 그렇지 않은 경우에 각각 맞는 두 가지 q‑학습 알고리즘을 제시한다. 알고리즘은 액터‑크리틱 구조로 구현되며, 다크 풀에서의 최적 청산 문제와 비‑LQ 재구매 비율 제어 문제에 적용해, 컴팩트 지원을 갖는 비가우시안 최적 정책을 명시적으로 도출한다. 실험 결과는 제안된 방법이 수렴하고 실용적인 성능을 보임을 확인한다.
상세 분석
이 연구는 연속시간 강화학습을 점프‑확산 모델에 확장하면서, 엔트로피 정규화로 Tsallis 엔트로피를 선택한 점이 가장 큰 혁신이다. 기존 연속시간 q‑학습은 Shannon 엔트로피를 사용해 최적 정책이 Gibbs 분포(즉, 지수형)로 귀결된다는 전제가 필요했지만, Tsallis 엔트로피는 지수형이 아닌 q‑지수 형태를 허용한다. 따라서 최적 정책이 확률밀도함수임을 보장하려면 라그랑주 승수 λ와 KKT 조건을 도입해 제약을 명시적으로 처리해야 한다. 논문은 이 λ가 q‑함수와 정책 사이의 관계식에 등장함을 보여주며, λ가 명시적으로 해석 가능한 경우와 그렇지 않은 경우를 구분한다.
첫 번째 경우, λ를 닫힌 형태로 구할 수 있으면 최적 정책은
π*(a|x)=\big
댓글 및 학술 토론
Loading comments...
의견 남기기