내재 에너지 기반 JEPA가 만든 비대칭 거리 공간
초록
본 논문은 Joint‑Embedding Predictive Architecture(JEPA)의 에너지 함수를 물리·제어에서 사용하는 최소작용(least‑action) 형태로 제한하면, 그 에너지는 자동으로 준거리(quasimetric) 성질을 만족한다는 이론적 연결고리를 제시한다. 최적 목표‑조건 제어에서 비용‑대‑도(cost‑to‑go) 함수는 바로 이러한 내재 에너지와 동일하며, 따라서 JEPA가 학습한 내재 에너지 모델은 Quasimetric Reinforcement Learning(QRL)이 목표로 하는 함수 클래스에 정확히 들어간다. 대칭적인 유한 에너지는 일방향 도달 가능성을 표현할 수 없으므로, 방향성이 중요한 상황에서는 비대칭(준거리) 에너지를 사용해야 함을 강조한다.
상세 분석
논문은 먼저 JEPA가 입력 쌍 (x, y)에 대해 임베딩 공간에서 예측 오류를 최소화하는 학습 목표를 갖는다는 점을 재해석한다. 이 예측 오류를 스칼라 호환성 에너지 E(x, y) 로 보면, 전통적인 에너지 기반 모델과 동일하게 “호환성”을 측정한다. 저자는 여기서 중요한 제약을 추가한다. 즉, E가 내재(least‑action) 에너지라면, 이는 두 상태 사이의 모든 허용 궤적 γ에 대해 누적된 로컬 노력 L(·,·) 의 적분값의 최솟값으로 정의된다. 수학적으로
E(x, y)=inf_{γ∈Γ(x→y)}∫₀^{T}L(γ(t), γ̇(t))dt,
이며 L은 비음수이며 속도 ‖v‖에 대해 선형 하한 c·‖v‖을 가진다. 이러한 정의는 세 가지 핵심 성질을 자동으로 보장한다.
- 비음성 및 반사성: L≥0이므로 적분값도 ≥0이며, 상수 궤적 γ(t)≡x 를 선택하면 E(x, x)=0이 된다.
- 동일성 식별: E(x, y)=0이면 ∥x−y∥=0이므로 x=y가 된다. 이는 L이 속도에 대해 양의 하한을 갖는 조건에서 증명된다.
- 삼각 부등식: 두 궤적 γ_{xy}, γ_{yz} 를 이어 붙인 γ_{xz} 를 고려하면 적분값은 단순히 합이 된다. 따라서 E(x, z) ≤ E(x, y)+E(y, z) 가 성립한다.
이 세 조건은 바로 준거리(quasimetric) 의 정의와 일치한다. 따라서 내재 에너지 함수는 자동으로 비대칭적이면서도 삼각 부등식을 만족하는 거리와 동일시될 수 있다. 논문은 또한 비대칭성이 일반적임을 강조한다. 허용 궤적 집합 Γ가 방향성을 가질 경우(예: 물리적 제약이나 비가역 시스템) 혹은 로컬 노력 L이 속도 방향에 따라 달라지는 경우, E(x, y)≠E(y, x) 가 자연스럽게 발생한다.
다음으로, 목표‑조건 강화학습(QRL)에서 사용되는 cost‑to‑go 함수 V*(s, g) 를 살펴보면, 이는 정확히 위와 같은 최소작용 형태와 동등하다. 최적 제어 이론에서 V*(s, g)=inf_{γ∈Γ(s→g)}∫c(γ(t), γ̇(t))dt 로 정의되며, 여기서 c는 즉시 비용이다. 따라서 V*는 내재 에너지와 동일하고, 부호를 바꾸어 d*(s, g)=−V*(s, g) 로 표현하면 QRL이 요구하는 준거리 구조를 만족한다.
이러한 이론적 연결고리를 바탕으로 논문은 IE‑JEPAs (Intrinsic‑Energy JEPAs) 라는 새로운 클래스의 JEPA를 정의한다. IE‑JEPAs는 인코더 f_ϕ와 예측기 p_θ 로 구성되며, 학습 과정에서 얻어지는 스칼라 점수가 위의 최소작용 에너지와 일치하도록 설계된다. 정리 1과 명제 1을 통해, IE‑JEPAs가 학습한 에너지 함수는 반드시 준거리이며, 이는 QRL이 목표‑조건 가치 함수를 학습할 때 가정하는 함수 클래스와 완전히 일치한다.
마지막으로, 대칭적인 유한 에너지 함수가 일방향 도달 가능성을 표현할 수 없다는 명제 2를 제시한다. 만약 E(x, y) 가 유한하고 대칭이라면, (x, y)∈R ⇒ (y, x)∈R 가 강제되므로, 비대칭적인 환경(예: 일방통행 도로, 비가역 물리 시스템)에서는 부적절하다. 따라서 방향성이 중요한 문제에서는 비대칭(준거리) 에너지 모델을 채택해야 함을 논리적으로 설득한다.
요약하면, 논문은 JEPA와 QRL 사이의 겉보이는 차이를 내재(least‑action) 에너지라는 공통된 수학적 구조를 통해 연결하고, 이 구조가 자동으로 준거리 성질을 부여함을 증명한다. 이는 향후 자기지도 학습과 목표‑조건 강화학습을 통합하는 새로운 연구 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기