제어 가능한 정보 생산: 혼돈 조절을 위한 새로운 내재 동기 원리
초록
본 논문은 외부 보상 없이 지능적 행동을 유도하는 내재 동기(IM) 방법으로, 정보 전송이 아닌 정보 생산에 초점을 맞춘 “Controllable Information Production(CIP)”을 제안한다. CIP는 개방형(open‑loop)과 폐쇄형(closed‑loop) Kolmogorov‑Sinai 엔트로피(KSE) 차이로 정의되며, 제어 가능한 혼돈을 탐색·억제하는 행동을 장려한다. 이론적 증명과 선형화된 동역학에서의 Riccati 방정식 연계 등을 통해 CIP의 비음성성 및 최적 제어와의 연결을 보이고, 기존 IM 기법과 차별화된 특성을 실험적으로 확인한다.
상세 분석
본 연구는 기존 내재 동기(IM) 접근법이 ‘정보 전송’이라는 프레임에 의존하고 설계자가 변수 선택을 강제한다는 근본적 한계를 지적한다. 이를 극복하기 위해 저자는 ‘정보 생산’이라는 개념을 도입하고, 이를 Kolmogorov‑Sinai 엔트로피(KSE)라는 동역학적 복잡도 측정과 연결한다. 핵심 아이디어는 시스템을 두 가지 제어 모드, 즉 행동을 사전에 고정한 open‑loop과 상태 피드백을 이용한 closed‑loop으로 구분하고, 각각의 KSE를 계산한 뒤 그 차이를 CIP = hₖₛ(fₒₗ) − hₖₛ(f𝚌ₗ) 로 정의한다.
이 정의는 직관적으로 “제어 가능한 혼돈”을 정량화한다. open‑loop에서 엔트로피가 크게 증가하면 시스템이 본질적으로 혼란스러움을 나타내지만, closed‑loop 제어가 이를 크게 감소시킬 수 있다면 에이전트는 작은 조작으로 큰 변화를 일으킬 수 있는 ‘엣지 오브 카오스(edge of chaos)’에 위치한다는 의미다. 반대로 완전히 제어 불가능하거나 완전 안정된 시스템은 두 엔트로피가 거의 동일해 CIP가 0에 가깝게 된다.
이론적 전개는 선형화된 동역학 xₜ₊₁ = f(xₜ,uₜ) 를 기반으로, 최적 제어 비용 J = ∑cₜ(xₜ,uₜ)+c_T(x_T) 를 정의하고, 이 비용에 대한 2차 미분(헤시안)과 가치함수 Vπ의 라그랑주 방정식을 이용해 Riccati 방정식(D‑ARE)을 도출한다. Lemma 4.1에서 정책을 ‘외재적 드리프트(dₜ)’와 ‘내재적 피드백(πₓₜ)’으로 분해하고, πₓₜ가 시스템의 불안정한 고유벡터(양의 Lyapunov 지수)를 억제하는 역할을 함을 보인다.
다음으로 Lemma 4.3은 가치함수 헤시안 Vπₓₓ를 두 개의 보조 행렬 Xₜ, Yₜ 로 분해한다. Yₜ는 제어 항을 제거한 순수 동역학의 KSE(즉, open‑loop)를, Xₜ는 피드백을 포함한 closed‑loop KSE를 각각 로그 행렬식의 성장률로 나타낸다. 이때 log det X₀와 log det Y₀의 차이가 바로 CIP이며, Theorem 4.5는 Riccati 방정식의 안정성 조건 하에 X₀ ≼ Vπₓₓ₀ ≼ Y₀ 를 이용해 CIP ≥ 0 를 보장한다.
실험 부분에서는 혼돈 이중진자, 로봇 팔, 그리고 표준 IM 벤치마크(예: MountainCar, Acrobot 등)에서 CIP 기반 에이전트를 적용한다. 결과는 기존 Empowerment, Curiosity, DIAYN 등과 비교했을 때, CIP가 높은 엔트로피 영역을 빠르게 탐색하면서도 제어 가능한 영역에 머무르는 경향을 보이며, 특히 완전 혼돈 상태에서는 보상이 거의 발생하지 않아 무작위 탐색에 비해 효율이 떨어지는 점을 확인한다. 이는 CIP가 ‘혼돈을 생산하되, 동시에 억제 가능한’ 특성을 정확히 포착한다는 실증적 증거다.
전체적으로 이 논문은 IM을 최적 제어 이론과 동역학적 엔트로피 개념에 자연스럽게 연결시킴으로써, 설계자 의존성을 최소화하고 ‘제어 가능한 복잡성’이라는 새로운 목표 함수를 제시한다. 향후 대규모 비선형 시스템에 대한 효율적인 근사 알고리즘(예: 신경망 기반 Riccati 근사) 개발과, 실제 로봇에의 적용이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기