에이전트 기억 사용량 분석
본 논문은 강화학습 에이전트가 정책을 수행할 때 과거 정보가 현재 행동에 미치는 영향을 정보이론적 관점에서 정량화한다. 행동과 과거 관측·보상의 조건부 상호정보량을 추정해 메모리 사용량을 하한으로 제공하고, 이를 DQN이 49개의 Atari 게임에서 실제로 얼마나 메모리를 활용하는지 실험적으로 보여준다.
저자: Christoph Dann, Katja Hofmann, Sebastian Nowozin
본 논문은 강화학습 에이전트가 정책을 수행할 때 내부적으로 얼마나 많은 과거 정보를 기억하고 활용하는지를 정량적으로 측정하는 방법을 제안한다. 기존 연구들은 주로 에이전트의 구조(예: RNN, 고정 윈도우)나 학습 과정에 초점을 맞추었지만, 이 작업은 에이전트와 환경을 블랙박스로 취급하고, 오직 관찰된 행동·관측·보상 삼중항의 시계열 데이터만을 이용한다는 점에서 차별화된다.
**문제 설정**
시간 t에서 에이전트는 관측 Xₜ, 행동 Aₜ, 보상 Rₜ를 생성한다. 정책 π는 현재 관측 Xₜ와 전체 히스토리 Z₁:ₜ₋₁(= (X₁,A₁,R₁,…,Xₜ₋₁,Aₜ₋₁,Rₜ₋₁))에 의존할 수 있다. 정책이 고정되어 있다고 가정하고, 여러 에피소드를 통해 (Z₁,…,Z_T) 샘플을 수집한다. 목표는 이 정책을 구현하기 위해 최소한으로 필요한 메모리 용량을 추정하는 것이다.
**메모리 사용량 정의**
조건부 상호정보량 I(Aₜ; Z₁:ₜ₋₁ | Xₜ) 를 메모리 사용량의 근본적인 지표로 채택한다. 이 값이 0이면 정책은 마코프이며, 양수이면 과거 정보가 행동에 영향을 미친다. 구체적으로, 다음과 같은 단계별 양을 정의한다.
- M₀ = I(Aₜ; Xₜ) : 현재 관측만으로 행동을 예측할 수 있는 정보량.
- M₁ = I(Aₜ; Zₜ₋₁ | Xₜ) : 바로 직전 단계의 정보가 추가로 제공하는 비트 수.
- M₂ = I(Aₜ; Zₜ₋₂ | Xₜ, Zₜ₋₁) : 두 단계 전까지의 정보가 추가로 제공하는 비트 수.
- …
- M_{t‑1} = I(Aₜ; Z₁ | Xₜ, Z₂:ₜ₋₁)
각 Mᵢ는 “i 단계 전까지의 히스토리를 알 때 현재 행동을 더 정확히 예측하기 위해 필요한 추가 정보”를 의미한다.
**추정 방법**
상호정보량은 엔트로피 차이로 표현될 수 있다. 저자는 Grassberger(2003)의 엔트로피 추정기를 사용해 각 엔트로피 항을 계산한다. 이 추정기는 관측값 빈도만으로 엔트로피를 근사하며, 계산량이 적고 대규모 데이터에 적합하다.
표본이 제한적인 경우 편향과 변동성을 보정하기 위해 퍼뮤테이션 테스트를 적용한다. 구체적으로, 원본 샘플에서 행동 Aₜ를 경험적 주변분포에서 무작위로 재샘플링하고, 재샘플링된 데이터에 대해 동일한 조건부 상호정보량을 다시 계산한다. 100번 반복해 95 % 분위수를 구하고, 원본 추정값이 이 분위수 이상이면 통계적으로 유의미하다고 판단한다.
**이론적 정당성**
메모리 함수를 추상화하여 정의한다. 메모리 함수 g는 시간 t, 현재 관측 Zₜ, 이전 메모리 상태 Y_{t‑1}를 입력으로 새로운 메모리 상태 Yₜ를 출력한다. 정책 π가 K개의 메모리 상태만으로 구현 가능하면, 존재하는 g에 대해 P(Aₜ | Xₜ, Y_{t‑1}) = P(Aₜ | Xₜ, Z₁:ₜ₋₁) 가 성립한다. 최소 K를 C(π)라 정의한다.
주요 정리는 다음과 같다. 모든 t에 대해 Σ_{i=1}^{t‑1} M_i ≤ log C(π) 가 성립한다. 즉, 단계별 상호정보량의 합이 정책을 구현하기 위해 필요한 메모리 상태 수의 로그보다 작거나 같다. 이는 관측된 M_i들이 실제 메모리 용량에 대한 하한을 제공한다는 의미이며, 실험적으로 추정 가능한 양이다.
**실험**
DQN을 49개의 Atari 게임에 대해 5천만 스텝 학습시킨 뒤, 각 정책에 대해 10 000개의 에피소드를 수집했다. DQN은 입력으로 마지막 4프레임(84×84 흑백 이미지)을 사용하므로, 이론적으로는 4프레임까지의 정보를 기억할 수 있다.
각 게임에 대해 M₀~M₃을 추정한 결과, 게임마다 메모리 활용도가 크게 달라졌다. 예를 들어, Pong과 Breakout은 M₀이 크게 나타나 현재 프레임만으로 충분히 행동을 결정한다는 것을 보여준다. 반면, Montezuma’s Revenge, Gravitar, Seaquest 등은 M₁, M₂, M₃이 통계적으로 유의미하게 나타나 과거 프레임이 행동 결정에 중요한 역할을 함을 확인했다. 이는 동일한 네트워크 구조라도 환경의 복잡도와 부분 관측성에 따라 메모리 요구량이 달라짐을 실증한다.
**결론 및 향후 연구**
이 논문은 정책 수준에서 메모리 사용량을 정량화하는 새로운 프레임워크를 제공한다. 현재는 이산형 관측·행동 공간에 한정되어 있지만, 연속형 공간에 대한 변분 정보 최대화 기법 등으로 확장 가능성이 있다. 또한, 환경을 능동적으로 조작해 메모리 사용을 최대화하는 상황을 탐색하거나, 메모리 요구량을 과제 난이도의 지표로 활용하는 등 다양한 응용이 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기