- Title: Flow Equivariant World Models Memory for Partially Observed Dynamic Environments
- ArXiv ID: 2601.01075
- 발행일: 2026-01-03
- 저자: Hansen Jin Lillemark, Benhao Huang, Fangneng Zhan, Yilun Du, Thomas Anderson Keller
📝 초록
이 논문은 부분적으로 관찰되는 동적 환경 모델링과 이를 수행하는 에이전트의 자체 움직임을 연구합니다. 특히, 내부와 외부 움직임을 수학적인 '흐름'으로 이해하고, 이를 통해 시간에 따른 대칭성을 처리할 수 있음을 보여줍니다. 이러한 접근법은 비록 에이전트의 시야가 제한적이지만 환경의 전체적인 상태를 정확하게 추적하는 데 도움을 줍니다.
💡 논문 해설
#### 핵심 기여 3가지
1. **내부와 외부 움직임 통합**: 에이전트는 자신의 움직임과 환경 내 다른 물체의 움직임을 동시에 처리할 수 있어야 합니다. 이 논문은 이를 가능하게 하는 '흐름 동등성' 개념을 제시합니다.
2. **정확한 예측 성능**: 부분적으로 관찰되는 환경에서 장기적인 동적 변화를 정확히 예측하는 능력을 갖추었습니다. 이는 기존 모델보다 향상된 일반화 성능을 보여줍니다.
3. **기억 구조의 활용**: 환경의 과거 상태를 기억하고 이를 현재 관찰과 연계하여 미래 상태를 예측하는 데 효과적인 메모리 구조를 제시합니다.
간단한 설명 및 비유
초급 수준: 이 논문은 우리 주변 세상을 정확히 이해하고, 우리가 움직일 때 이를 어떻게 처리할지에 대한 방법을 연구합니다. 예를 들어, 사냥꾼이 다른 동물과 함께 사냥하면서 어떻게 움직여야 하는지를 생각해보세요.
중급 수준: 이 논문은 에이전트가 자신의 움직임과 환경 내 물체의 움직임을 정확하게 예측할 수 있는 방법을 제시합니다. 이를 위해 ‘흐름 동등성’이라는 개념을 사용하여 시간에 따른 대칭성을 처리하고, 이로 인해 더 나은 성능을 얻을 수 있습니다.
고급 수준: 이 논문은 부분적으로 관찰되는 환경에서 에이전트의 움직임과 외부 물체의 움직임을 정확하게 예측할 수 있는 ‘흐름 동등성’ 개념을 제시합니다. 이를 통해 장기적인 동적 변화를 정확히 예측하는 데 성공하며, 이는 기존 모델보다 향상된 일반화 성능을 보여줍니다.
Sci-Tube 스타일 스크립트
초급 수준: 사냥꾼이 다른 동물들과 함께 움직이는 모습을 상상해보세요. 이 논문은 어떻게 이런 복잡한 움직임을 정확하게 이해하고 예측할 수 있는지 연구합니다.
중급 수준: 에이전트는 자신의 움직임과 환경 내 물체의 움직임을 동시에 처리해야 합니다. 이 논문은 이를 가능하게 하는 ‘흐름 동등성’ 개념을 제시하고, 이를 통해 더 나은 예측 성능을 얻습니다.
고급 수준: 부분적으로 관찰되는 환경에서 에이전트의 움직임과 외부 물체의 움직임을 정확하게 예측하는 것은 매우 복잡한 문제입니다. 이 논문은 이를 가능하게 하는 ‘흐름 동등성’ 개념을 제시하고, 이를 통해 장기적인 동적 변화를 정확히 예측하는 데 성공합니다.
📄 논문 발췌 (ArXiv Source)
# 서론
우리는 동적인 세상에서 몸을 움직이는 에이전트로서, 우리의 생존은 주변 환경을 정확하게 모델링하고 우리가 그 안을 어떻게 움직이는지, 그리고 그 내부의 이동하는 물체들의 역학을 이해하는 능력에 크게 의존합니다. 자연적인 예로는 무리 사냥이 있습니다: 공격을 조율하기 위해 에이전트는 목표물의 위치와 속도를 정확하게 추정해야 하며 동시에 다른 무리 동물들의 움직임을 예측해야 합니다. 그러나 이러한 세계 상태들은 에이전트에게 전지적인 전역적인 시야 형태로 제공되지 않습니다; 대신, 에이전트는 자신의 자기 움직임과 함께 이동하고 회전하는 제한된 첫인칭 시야를 제공받습니다. 결과적으로 시간에 따라 환경의 전체 정보 중 일부만을 제공하는 고도로 얽혀있는 자극 흐름이 생성됩니다. 그럼에도 불구하고 생물학적 에이전트들은 부분적으로 관찰되는 동적인 환경에서 마치 환경에 대한 잠재지도가 전역적인 세계 상태와 완벽하게 일치하여 흐르는 것처럼 쉽게 탐색하고 있습니다.
본 연구에서는 부분적으로 관찰되는 동적 세계 모델링 (Fig. 1에 시각화됨)과 에이전트의 본질적인 자기 움직임을 함께 연구하며, 외부와 내부 시각적 변동을 기하학적으로 구조화된 방식으로 설명할 수 있는지 조사합니다. 구체적으로 우리는 내부 및 외부 운동을 수학적인 ‘흐름’으로 이해할 수 있음을 발견했으며, 이를 통해 시간 매개 변수화된 대칭성을 처리하는 ‘흐름 동등성’ 프레임워크를 통해 둘 다를 정확하게 핸들링 할 수 있습니다. 우리는 자기 생성 움직임을 정밀한 구조화 방식으로 처리할 수 있는 Flow Equivariant World Models을 구성하며, 동시에 시야 밖에서 움직이는 외부 물체의 움직임도 포착할 수 있음을 보여줍니다. 이를 통해 크게 개선된 비디오 세계 모델링 성능과 훈련 중 본 데이터보다 훨씬 긴 시퀀스에 대한 일반화를 보여주며, 정밀한 공간적 및 동적 구조의 혜택을 강조합니다.
부분적으로 관찰되는 동적인 세계 모델링. 에이전트는 역학을 관찰한 다음, 원래 시점으로 돌아옵니다. Flow Equivariant World Models (FloWM)은 시간에 따라 안정적으로 역학을 통합할 수 있지만, 기존 연구는 환영현상을 보여줍니다.
배경
구조화된 표현의 환경 역학으로 세계 모델을 구축하기 위해 우리는 최근의 세계 모델링과 동등성 작업에 의존합니다. 더 자세한 관련 연구 정보는 Section 5 및 Appendix 10에서 확인할 수 있습니다.
세계 모델링.
세계 모델은 고수준에서 환경의 초기 조건을 주어진 미래 상태를 예측하는 데뿐만 아니라 에이전트가 작용했을 때 그 상태가 어떻게 다르게 진화할지 예측하는 능력을 제공하는 시스템으로 설명될 수 있습니다. 최근 세계 모델링 작업은 주로 대규모 잠재 확산 변환기 모델을 사용하여 미래의 환경 상태를 표현하고 예측하는 데 초점을 맞추고 있습니다. 이러한 모델들은 인지적 품질이 우수하며 데이터와 계산 능력에 따라 잘 확장되지만, 현재 형태는 부분적으로 관찰되는 환경에서 장기적인 역학을 예측할 수 없어 실세계의 하류 작업에 사용하기에 근본적으로 제한적입니다.
부분적으로 관찰 가능성이란 에이전트의 관찰에 세계 상태의 전체 정보가 포함되지 않는 상황을 의미합니다. 이 문제는 특히 세계 모델링에 관련되며, 미래를 정확하게 예측하려면 모델은 과거 관찰에서 모든 관련 정보를 검색하고 이를 미래 예측으로 가져와야 합니다. 고정 길이 비디오 생성을 넘어서 최근의 자동회귀 방법론인 History-Guided Diffusion Forcing는 여러 과거 관찰 프레임에 대한 변환기 자기 주의 윈도우를 확장하여 자체 일관성을 유지할 수 있습니다. 그러나 결국, 관찰 프레임의 수가 증가함에 따라 슬라이딩 윈도우 주의나 다른 근사치를 통해 정보는 필연적으로 삭제됩니다. 비디오와 같은 높은 중복 신호에 대한 공간-시간 주의의 비용으로 인해 이 문제는 더욱 악화됩니다. 과거 관찰이 자기 주의 윈도우에서 벗어나게 되면 (자체 주의 윈도우에 대한 부분적으로 관찰 가능성이 참) 그 정보는 잃어버려집니다; 돌아보면 완전히 새로운 환영된 장면이 나타납니다. 게다가 과거 관찰 프레임에서 얻은 정보를 의존하면 주변 세상의 자연적인 역학을 모델링하는 데 해가 될 수 있습니다.
최근 연구에서는 잠재적 메모리를 통해 비디오 확산 모델에 다양한 형태의 지속적인 시간적 기억을 추가하는 것을 탐색했습니다. 그러나 그 초점은 대체로 정적 3D 장면에서의 일관성에 있었고, 부분적으로 관찰되는 역학을 모델링하기 위한 통합 프레임워크는 없었습니다. 반대로 우리는 세계 모델을 구축하는 자연스러운 방법이 에이전트의 행동과 세상의 역학을 부드럽게 표현할 수 있는 재귀적인 흐름 동등성 메모리를 중심에 두는 것이라고 주장합니다. 이러한 메모리는 장기 관찰 창에서 중요한 정보를 유지하면서 정확한 움직임 대칭성을 통해 미래 상태를 예측할 수 있게 합니다. 현대의 슬라이딩 윈도우 자동회귀 변환기, 기존의 메모리 솔루션 및 우리의 모델 (FloWM) 간 시각적 비교는 Figure 2에서 확인할 수 있습니다.
세계 모델링 프레임워크 비교. a) 표준 자동회귀 비디오 확산은 슬라이딩 윈도우를 넘어서의 프레임을 제거합니다. b) 과거 관찰과 생성된 프레임 간 정보 의존성으로 인해 메모리 없이는 일관성이 없습니다. c) 기존 메모리 솔루션은 시점에 따라 다르며, 따라서 일관적으로 동적 장면을 예측할 수 없습니다. d) FloWM은 공간 잠재 메모리에서 과거 관찰을 기억하고 이를 내부 역학을 통해 계속 업데이트합니다.
동등성.
신경망 $`\phi`$는 입력 $`f`$가 그룹 $`G`$의 요소인 $`g`$에 의해 변환되었을 때, 출력 $`\phi(f)`$가 구조적이고 예측 가능한 방식으로 변화하는 경우 동등하다고 말합니다. 즉, $`\phi(g \cdot f) = g\cdot \phi(f) \ \ \forall g \in G`$. 동등한 신경망을 구성하는 한 가지 방법은 구조화된 가중치 공유를 통해 입니다. 이 구조는 인공 신경망에서 학습해야 하는 매개변수의 수를 줄이는 동시에 데이터 분포로부터 알려진 대칭성을 통합하여 성능을 향상시킵니다. 예를 들어, 분자 역학 시뮬레이션 설정에서 3차원 이동, 회전 및 반사에 대한 동등성 (물리 법칙의 알려진 대칭성인 그룹 $`E(3)`$)을 도입하면 데이터 효율성이 세 배까지 향상됩니다.
Flow Equivariant World Models
이 섹션에서는 Flow 동등성을 검토한 다음, 복잡한 작업을 지원할 수 있는 일반화된 반복 관계를 소개합니다. 그런 다음 2D와 3D 부분적으로 관찰되는 동적 세계 모델링에 대한 우리의 일반 프레임워크의 구현을 제시합니다.
일반화된 Flow Equivariance
Flow Equivariance.
최근, ‘정적인’ 그룹 동등성을 시간 매개 변수화된 시퀀스 변환 (‘흐름’)으로 확장하여 흐름 동등성이라는 개념을 도입했습니다. 이러한 흐름은 벡터 필드 $`\nu`$에 의해 생성되며, $`\psi_t(\nu) \in G`$. 이 흐름 $`\psi_t(\nu)`$는 특정 초기 그룹 요소 $`g_0`$에서 새로운 요소 $`g_t`$로 매핑하며 (즉, $`\psi_t(\nu) \cdot g_0 = g_t`$), 따라서 $`g_0`$가 고정되었을 때 $`\psi_t(\nu)`$를 시간 매개 변수화된 그룹 요소라고 비formally 생각할 수 있습니다. 예를 들어, $`\nu`$를 특정 속도로 생각하면 $`\psi_t(\nu)`$는 $`\nu`$를 $`t`$ 시간 동안 적분하여 얻은 공간 이동을 나타냅니다. 정식으로 표현하자면, 흐름 $`\psi_t(\nu): \mathbb{R} \times \mathfrak{g} \rightarrow G`$는 Lie 그룹 $`G`$의 부분 그룹이며, 해당 Lie 대수 요소 $`\nu \in \mathfrak{g}`$에 의해 생성되며, 일반적으로 시간으로 해석되는 단일 값인 $`t \in \mathbb{R}`$ 매개변수화됩니다. 시퀀스-투-시퀀스 모델 $`\Phi`$, $`(f_0,\dots,f_T)\mapsto(y_0,\dots,y_T)`$는 입력 시퀀스가 흐름을 거치면 출력 시퀀스도 흐름의 동작에 따라 변환되는 경우, 즉
그룹 $`G`$에 대한 신호 $`f_t`$의 흐름의 동작은 왼쪽 동작으로 정의됩니다:
$`\psi_t(\nu) \cdot f_t(g) := f_t(\psi_t(\nu)^{-1} \cdot g)`$. 부분적으로 관찰 가능한 경우, 방정식 [eqn:flow_eq_orig]를 수정하여 흐름 변환을 전역 세계 상태에 적용할 수 있습니다. 즉,
여러 개의 흐름 ($`\nu \in V`$)에 대해 동등성을 달성하기 위해, Flow Equivariant RNN은 여러 개의 은닉 상태 ‘속도 채널’을 갖추며 각각이 자신의 벡터 필드 $`\nu`$ (표기: $`h_t(\nu)`$)에 따라 흐르게 됩니다. 이는 Fig. [fig:2d_model_figure](a)에서 쌓인 행으로 설명됩니다.
Lie 대수의 요소들이 구조적으로 결합됨에 따라, 입력 시퀀스가 흐름 $`\psi(\hat{\nu})`$에 의해 작용될 때 은닉 상태 출력도 흐르게 되며 이러한 ‘속도 채널’은 그들의 속도와 입력 속도 사이의 차이 ($`\nu - \hat{\nu}`$)에 따라 순환하게 됩니다:
다음의 하위 섹션에서는 효율성과 견고성을 얻기 위해 동등성이 세계 모델링에 도입되며, ‘은닉 상태’ 또는 메모리는 에이전트의 행동 그룹 및 세상 내 다른 물체들의 추상적 움직임을 정의하는 그룹에 대한 구조화된 방식으로 표현될 수 있음을 제안합니다. 그러면 이 메모리에 대해 출력 공간에서 에이전트 행동의 표현 ($`T'^{-1}_{action}`$)의 역수를 적용하여 이 메모리를 자기 움직임에 대해 동등하게 만들 수 있습니다. 이러한 자기 움직임 동등성은 군 연산의 닫힘을 강제하며, 따라서 일련의 행동이 에이전트가 이미 관찰한 장소로 돌아가게 한다면 표현이 반드시 같아질 것입니다. 이론적으로 보여주듯이 이것은 위에서 설명된 시야 밖 역학 모델링에 대한 도전 과제를 해결합니다.
일반화된 Flow Equivariant Recurrence Relation.
복잡한 작업, 예를 들어 3D 부분적으로 관찰되는 세계 모델링을 지원하기 위해 우리는 임의의 인코더와 업데이트 연산을 지원하는 추상적인 흐름 동등성 재귀 관계를 제시합니다. 구체적으로, 현재 관찰 $`f_t`$와 과거 은닉 상태 $`h_t`$에 대한 추상적 관찰 인코더는 $`\mathrm{E}_{\theta}[f_t; h_t]`$, 그리고 업데이트 연산은 $`h_{t+1} = \mathrm{U}_{\theta}[h_t; o_t]`$로 정의되며, 여기서 인코딩된 관찰 ($`o_t = \mathrm{E}_{\theta}[f_t; h_t]`$)과 과거 은닉 상태를 함수로 사용합니다. 내부 속도 채널은 $`\psi_1`$의 동작을 통해 1 시간 단위로 흐릅니다. 이를 합치면 새로운 일반화된 흐름 동등성 재귀 관계는 다음과 같이 작성됩니다: