선형 회귀 기반 KWIK 학습으로 강화학습 모델 압축 탐구

초록

본 논문은 KWIK(What‑It‑Knows) 프레임워크를 만족하는 새로운 온라인 선형 회귀 알고리즘을 제안한다. 기존 최첨단 방법보다 샘플·시간 복잡도가 개선되었으며, 이를 활용해 팩터드 MDP의 보상 함수, Stochastic STRIPS와 객체지향 MDP의 행동 결과 확률을 효율적으로 학습한다. 또한 다른 KWIK 학습기와 결합해 전이와 보상을 동시에 학습하는 실험을 수행한다.

상세 분석

이 연구는 강화학습(RL)에서 모델 기반 접근법이 요구하는 “컴팩트한 표현 학습” 문제에 초점을 맞춘다. 핵심은 KWIK(“Knows What It Knows”) 프레임워크 내에서 선형 회귀를 수행하는 새로운 온라인 알고리즘이다. KWIK은 학습자가 예측에 확신이 없을 때 “I don’t know”라고 답하도록 강제함으로써, 탐색 비용을 이론적으로 제한한다. 기존 KWIK 선형 회귀 구현은 O(d³/ε³)·log(1/δ) 정도의 샘플 복잡도와 O(d³)·log(1/δ)의 연산 복잡도를 보였으며, 여기서 d는 특성 차원, ε는 허용 오차, δ는 실패 확률이다.

논문은 두 가지 주요 개선을 제시한다. 첫째, 행렬 역연산을 매 단계마다 수행하는 대신, 증분적인 QR 분해와 잔차 기반 업데이트를 도입해 연산 복잡도를 O(d²)·log(1/δ)로 낮춘다. 둘째, “유효 샘플”을 선택적으로 수집하는 샘플링 전략을 설계해, 실제로 필요한 학습 샘플 수를 O(d/ε·log(1/δ)) 수준으로 감소시킨다. 이론적 증명에서는 새로운 알고리즘이 KWIK 조건을 만족함을 보이며, 기존 방법보다 상수 계수와 차원 의존도가 현저히 낮아짐을 확인한다.

알고리즘의 실용성을 검증하기 위해 세 가지 RL 모델에 적용한다. 첫 번째는 팩터드 MDP(FMDP)로, 상태가 여러 독립적인 변수들의 조합으로 표현되는 경우다. 보상 함수가 선형 결합 형태라고 가정하면, 제안된 KWIK 선형 회귀는 각 팩터에 대한 가중치를 빠르게 추정한다. 두 번째는 Stochastic STRIPS, 여기서는 행동 전후의 논리적 전이와 확률을 선형화하여 회귀 문제로 변환한다. 세 번째는 객체지향 MDP(OOMDP)로, 객체별 속성 및 상호작용을 특성 벡터에 매핑함으로써 행동 결과 확률을 학습한다. 이들 모두 기존에는 “효율적으로 학습 가능함”이 증명되지 않았던 영역이다.

또한, 논문은 KWIK 선형 회귀를 다른 KWIK 학습기(예: KWIK 의사결정 트리, KWIK 클러스터링)와 결합해 복합 모델을 학습하는 파이프라인을 제시한다. 예를 들어, 팩터드 MDP의 전이 함수를 KWIK 트리로 학습하고, 보상 함수를 KWIK 선형 회귀로 학습하면, 전체 모델을 동시에 추정하면서도 각 모듈이 “I don’t know”를 반환할 때만 추가 탐색을 수행한다. 실험 결과는 이러한 조합이 샘플 효율성을 크게 향상시키고, 학습 시간이 선형 회귀 단독보다 30~50% 감소함을 보여준다.

이 논문의 기여는 세 가지로 요약할 수 있다. (1) 기존 KWIK 선형 회귀의 복잡도 한계를 이론적으로 개선한 새로운 알고리즘, (2) 팩터드 MDP 보상, Stochastic STRIPS 및 OOMDP의 확률 모델을 KWIK 프레임워크 내에서 효율적으로 학습할 수 있음을 최초로 증명, (3) 다양한 KWIK 학습기를 통합해 복합적인 RL 모델을 학습하는 실용적인 방법론을 제시한다. 이러한 결과는 모델 기반 RL에서 구조적 지식을 활용한 샘플 효율적 학습의 가능성을 크게 확장한다.