함수공간 기반 탐색‑활용 제어를 위한 톰슨 샘플링 학습
초록
본 논문은 제한된 파라미터 표현에 머물던 톰슨 샘플링(TS)을 재현 커널 힐베르트 공간(RKHS)으로 확장한다. 제어법을 함수공간의 원소로 취급해 사전 구조 가정 없이 온라인 데이터로 사후분포를 갱신하고, TS 메커니즘으로 탐색‑활용을 균형 있게 수행한다. 이론적으로 비용 함수의 수렴을 지수적 속도로 보장하고, 제어 레그레트 상한과 평균제곱 안정성을 증명한다. 수치 실험을 통해 미지의 비선형 시스템에 대한 효율성을 확인한다.
상세 분석
이 연구는 기존 TS가 파라미터 공간(유한 차원 혹은 연속 실수 공간)에서만 적용 가능하다는 한계를 극복하고자, 제어법을 무한 차원의 함수공간, 특히 재현 커널 힐베르트 공간(RKHS)으로 매핑한다. RKHS는 내적 구조와 완비성을 제공해, 함수들을 선형 결합 형태로 표현하면서도 비선형 시스템에 대한 풍부한 표현력을 유지한다. 논문은 먼저 초기 제어법 𝑔̂를 기반으로 적절한 커널을 선택하고, 해당 커널의 기저함수들을 이용해 함수공간 𝒢̂를 구성한다. 이때, 함수공간은 볼록 폐합(convex hull) 구조를 갖도록 설계되어, 최적 제어법이 존재한다는 가정 하에 최적화 문제를 정의한다.
TS 프레임워크는 매 세그먼트마다 수집된 데이터(상태·입력·출력)를 이용해 비용 함수 J(g)의 사후분포를 베이지안 업데이트한다. 여기서 비용 함수는 제어법에 대한 랜덤 함수로 모델링되며, 사후분포는 가우시안 프로세스(GP) 혹은 베타 분포와 같은 공액 사전과 결합해 계산 효율성을 확보한다. 업데이트된 사후분포에서 샘플링된 비용 함수에 대해 최적 제어법을 다시 선택하는 것이 TS의 핵심이다.
이론적 기여는 네 가지 정리로 정리된다. 정리 1은 함수공간 파라미터화에 의해 발생하는 성능 저하 상한을 제시하고, 파라미터화 오차가 제한된 상수임을 보인다. 정리 2는 사후분포 업데이트가 비용 함수의 추정치를 지수적으로 수렴시킴을 증명한다. 정리 3은 전체 제어 레그레트가 두 항(함수공간 파라미터화 상수와 지수 감쇠 항)으로 구성된 상한을 갖는다는 것을 보여준다. 마지막으로 정리 4는 평균제곱 안정성(mean‑square boundedness)을 확보해, 학습 과정 중 시스템 상태가 발산하지 않음을 보장한다.
실험에서는 두 종류의 비선형 시스템(예: 차원 2의 로봇 팔 모델, 비선형 진동 시스템)에 대해 기존 UCB 기반 ALC, 전통적인 파라미터 TS, 그리고 제안된 RKHS‑TS를 비교한다. 결과는 제안 방법이 레그레트와 수렴 속도 면에서 현저히 우수함을 보여준다. 특히, 함수공간을 이용함으로써 사전 구조 가정이 필요 없으며, 복잡한 비선형 제어법을 자동으로 탐색·학습할 수 있다는 실용적 장점이 강조된다.
전반적으로 이 논문은 제어 이론과 베이지안 강화학습을 융합한 새로운 패러다임을 제시한다. 함수공간 기반 파라미터화, 베이지안 사후 갱신, 그리고 TS 기반 탐색‑활용 메커니즘을 결합함으로써, 미지의 동적 시스템에 대한 데이터‑드리븐 제어 설계가 보다 일반화되고 이론적으로 견고해졌다.
댓글 및 학술 토론
Loading comments...
의견 남기기