활성 추론을 자유 에너지 원리와 분리시킨다: 이산 상태 공간에서 제약 발산 최소화 접근

읽는 시간: 6 분
...

📝 Abstract

We seek to clarify the concept of active inference by disentangling it from the Free Energy Principle. We show how the optimizations that need to be carried out in order to implement active inference in discrete state spaces can be formulated as constrained divergence minimization problems which can be solved by standard mean field methods that do not appeal to the idea of expected free energy. When it is used to model perception, the perception/action divergence criterion that we propose coincides with variational free energy. When it is used to model action, it differs from an expected free energy functional by an entropy regularizer.

💡 Analysis

**

1. 연구 배경 및 동기

  • 활성 추론 vs. 자유 에너지 원리: 기존 문헌(Friston 등)은 인지와 행동을 모두 “예상 자유 에너지 최소화”라는 하나의 목적함수로 설명한다. 그러나 이 접근은 연속 시간·연속 상태 모델에 크게 의존하고, 물리학적 해석을 강조한다.
  • 이산 모델의 필요성: 엔지니어링·AI 분야에서는 숨은 마르코프 모델(HMM) 혹은 **부분 관측 마르코프 결정 과정(POMDP)**와 같은 이산 구조가 더 직관적이며 구현이 용이하다. 저자는 이러한 실용적 요구를 충족시키기 위해 연속‑연속 프레임워크를 배제하고 순수 이산 접근을 제시한다.

2. 핵심 아이디어

구분기존 접근논문에서 제안하는 접근
목적함수변분 자유 에너지(VFE) → 인지, 기대 자유 에너지(EFE) → 행동단일 KL‑발산 기준 → 인지·행동 모두에 적용
최적화 기법기대 자유 에너지 전용 변분 알고리즘(예: 베이지안 플래닝)표준 평균장(mean‑field) 근사 (ELBO 최적화와 동일)
정규화 항없음 (EFE에 내재)행동에 엔트로피 정규화 추가 (탐색‑활용 균형)
모델연속 확률 미분 방정식, 자유 에너지 물리학적 해석이산 HMM/PO‑MDP – 전이 행렬, 정책을 상태에 포함시켜 행동을 “숨은 상태”로 통합

3. 수학적 전개

  1. 제약된 KL‑발산
    \

📄 Content

**감각 지각을 무의식적인 추론 과정으로 이해한다는 사상은 헬름홀츠(Helmholtz)에게까지 거슬러 올라갑니다. 그의 많은 과학적 공헌 중 하나는 피스톤을 움직이는 등 물리적 일을 할 수 있는 시스템 내 에너지를 정량화한 헬름홀츠 자유 에너지(Helmholtz free energy) 개념입니다. 힌튼(Hinton)과 그의 공동 연구자들은 기계 학습에서의 근사 베이지안 추론을 헬름홀츠 자유 에너지와 형식적으로 동일한 추상적인 수학량을 최적화하는 문제로 볼 수 있음을 깨달았으며, 이 수학량은 현재 변분 자유 에너지(variational free energy) 로 알려져 있습니다(따라서 헬름홀츠 머신[1]과 볼츠만 머신[2]이 등장합니다). 프리스톤(Friston)은 일련의 논문([3,4,5] 등)에서 이러한 아이디어들을 연결하고, 감각 지각뿐 아니라 행동도 근사 베이지안 추론으로 모델링할 수 있음을 보여 주면서 그 적용 범위를 크게 확장했습니다.


감각‑행동을 추론으로 보는 관점

감각이 신체 감각(bodily sensations) 으로부터 도출된 추론이라면, 행동은 미래 감각에 대한 예측(predictions of future sensations) 을 실현하는 과정으로 볼 수 있습니다. 감각‑지각 추론은 근사 사후 확률분포(approximate posterior probability distributions) 를 계산하는 문제이고, 능동 추론(active inference)근사 예측분포(approximate predictive distributions) 를 계산하는 문제입니다. 두 종류의 추론 모두 변분 추론(variational inference) 알고리즘으로 풀 수 있는 최적화 문제로 정형화됩니다.

  • 지각의 경우 최적화 목표는 바로 변분 자유 에너지이며, 이는 평균장(mean‑field) 근사[6] 로 구현됩니다.
  • 행동의 경우 새롭게 제안된 기대 자유 에너지(expected free energy) 를 목표함수로 삼고, 이를 최적화하기 위한 변분 방법들이 개발되었습니다[7‑11].

“자유 에너지 원리(Free Energy Principle)는 이해하기 어렵다”고 서두에 적힌 리뷰 논문은 프리스톤의 프로그램을 통계 물리학에 기반한 변분 추론으로 고정시키려는 시도를 보여 줍니다[12].


물리학자와 엔지니어의 서로 다른 모델링

  • 물리학자는 생물학적 에이전트가 확률적 미분 방정식(stochastic differential equation) 으로 기술되는 연속 동적 시스템(random dynamical system) 으로 세계를 모델링하고, 항상성을 유지하려는 시도를 pullback attractor 로 해석합니다.
  • 엔지니어는 실제 로봇이나 자율 AI를 설계할 때 이산 상태 공간(discrete state space)이산 시간 단계(discrete time steps) 로 세계를 모델링합니다. 여기서는 숨은 마르코프 모델(Hidden Markov Model, HMM) 혹은 부분 관측 마르코프 결정 과정(Partially Observable Markov Decision Process, POMDP) 가 주된 도구가 됩니다.

엔지니어가 필요로 하는 수학적 도구는 물리학자가 사용하는 복잡한 연속 미분 방정식보다 훨씬 단순합니다.


논문의 목표

본 논문에서는 연속 상태 공간에서 개발된 복잡한 수학적 장치를 전혀 사용하지 않고, 이산 상태 공간 에서의 능동 추론(active inference)자체적으로(self‑contained) 그리고 수학적으로 엄밀하게(mathematically rigorous) 서술하고자 합니다.

  1. HMM 은 능동 추론 문제의 경로 적분(path integral) 형태를 자연스럽게 받아들일 수 있습니다.
  2. 행동을 이산 전이 확률 행렬(discrete transition probability matrices) 로 모델링함으로써 연속‑이산 혼합 모델 을 피할 수 있습니다.
  3. 상태와 행동을 구분하지 않고, “현재 수행 중인 행동” 을 나타내는 태그(tag) 를 상태에 포함시키면, 행동을 명시적으로 언급하지 않아도 충분히 풍부한 HMM 구조만으로 모든 정보를 표현할 수 있습니다.
  4. 행동의 연속(행동 시퀀스) 역시 전이 행렬로 모델링할 수 있으므로, 정책(policy)감각 결과(sensory consequences) 를 모두 HMM 안에 내재시킬 수 있습니다.

이러한 설정 하에, 에이전트는 자신의 HMM을 이용해 현재 시점까지의 히스토리를 조건으로 사후 및 예측 확률분포를 계산합니다. 하지만 정확한 계산은 계산적으로 불가능하므로, 근사 방법을 사용해야 합니다.


자유 에너지 원리와 능동 추론의 구분

능동 추론을 위와 같이 바라보면 자유 에너지 원리(Free Energy Principle, FEP) 를 반드시 도입할 필요가 없습니다. 따라서 흔히 능동 추론FEP 를 동일시하는 관점을 구분하고자 합니다.

  • 이산 상태 공간에서의 능동 추론예상 자유 에너지(expected free energy) 를 전혀 사용하지 않는 표준 평균장(mean‑field) 방법 으로 해결할 수 있습니다.
  • 우리는 단일 Kullback‑Leibler(KL) 발산 기준을 최소화함으로써 지각‑행동 사이클통합적으로 모델링합니다. 즉, 변분 자유 에너지예상 자유 에너지를 각각 따로 최적화하는 것이 아니라, 하나의 KL 발산을 최소화하는 것으로 두 과정을 동시에 다룹니다.

또한, 평균장 근사를 이용해 HMM 파라미터의 베이지안 학습정책에 대한 믿음(beliefs about policies) 업데이트까지 확장할 수 있음을 보여 줍니다.


구성 안내

  1. 베이지안 뇌 가설(Bayesian Brain Hypothesis), 베이지안 머신러닝, 통계역학의 기본 개념을 간략히 리뷰합니다.
  2. 능동 추론자유 에너지 원리에 대한 개념적 개요와 논문의 로드맵을 제시합니다.

“우리의 대부분의 고민 속에서, [신]은 우리에게 확률의 황혼(twilight of probability) 만을 허락하셨다. 이는 우리를 중간 단계와 시련에 두어, 매일의 경험을 통해 우리의 단견과 오류 가능성을 깨닫게 하려는 의도라 생각한다.” – 존 로크(John Locke, 1689)[18]

로크가 말한 확률이 정확히 무엇인지는 불분명합니다. 현대 수학적 확률 이론은 오래전 확립되었지만, 통계학자·엔지니어·물리학자 사이에 확률의 의미에 대한 합의는 아직 없습니다. 신경과학자들은 베이지안 해석을 채택해, 확률을 신념(belief) 혹은 신뢰도(credence) 로 간주합니다. 즉, 확률은 관찰자의 사건에 대한 지식 상태를 나타내며, 객관적 사건 자체를 직접 가리키지는 않습니다.

물리학자들은 이러한 해석을 꺼리지만, 불확실성 하의 추론덧셈·곱셈 규칙만으로 간결하게 정형화한다는 점에서 큰 장점을 가집니다. 베이지안 의사결정 이론신념에 정확한 수치를 부여하고 연산을 정확히 수행한다면 최적임이 증명됩니다.


베이지안 뇌 가설

  • 뇌는 신체와 환경이 어떻게 작동하고 상호작용하는가 에 대한 신념의 저장소 입니다.
  • 새로운 감각 정보가 들어오면, 뇌는 베이지안 추론을 통해 감각의 원인(원인 변수) 을 추정합니다. 이는 사전 확률(prior)사후 확률(posterior) 로 변환하는 과정이며, 현실(reality) 은 바로 이 사후 확률이라고 할 수 있습니다.

수학적 모델

  • 상태 벡터 (s) : 유기체가 살고 있는 세계의 원인들을 나타냄.
  • 관찰 벡터 (o) : 내부(내감각, 고유감각)와 외부(외감각) 감각 데이터 전체.

정적 결합 확률분포

[ p(s, o \mid S) ]

를 가정하면,

  • (p(s\mid S)) : 뇌가 가지고 있는 사전 지식 (world model)
  • (p(o\mid S)) : 모델 증거(model evidence), 그 음의 로그 (-\ln p(o\mid S)) 를 놀람(surprisal) 라 부릅니다.

직접적인 사후 확률

[ p(s\mid o, S) = \frac{p(s, o\mid S)}{p(o\mid S)} ]

를 계산하려면 모든 가능한 (s) 에 대해 합산해야 하는데, 이는 계산적으로 불가능합니다. 따라서 뇌는 변분 근사(variational approximation), 특히 평균장(mean‑field) 근사 를 사용해 근사 사후분포 를 구하고, 동시에 ELBO(evidence lower bound) 를 얻습니다.

변분 자유 에너지(variational free energy) 는 ELBO에 부호를 바꾼 것이며, 자유 에너지 최소화놀람 최소화와 동치가 됩니다.


감각‑행동 순환과 능동 추론

베이지안 뇌 가설을 행동까지 확장하면, 프리스톤은 생물학적 에이전트가 모델 증거를 최대화 하거나 변분 자유 에너지를 최소화 하려는 방향으로 행동한다고 주장합니다. 이를 ‘자기‑증거(self‑evidencing)’ 라 부릅니다.

  • 예측(prediction) : 에이전트는 현재까지의 히스토리 와 **정상 상태(s

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키