잠재 관점 전환을 위한 슈뢰딩거 브리지 기반 영향 증강 로컬 모델

잠재 관점 전환을 위한 슈뢰딩거 브리지 기반 영향 증강 로컬 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 논문은 인간과 공동으로 작업하는 로봇이 타인의 숨은 정신 모델과 상태를 추론하도록, 구조화된 정신‑모델을 학습하고, 슈뢰딩거 브리지를 이용해 자기 중심 믿음을 타인 중심 믿음으로 변환하는 방법을 제안한다. 영향‑증강 로컬 모델(IALM) 위에 신경‑심볼릭 동적 베이즈 네트워크와 amortized Schrödinger Bridge를 결합해, 모델 기반 강화학습에서 실시간 정신‑상태 계획을 가능하게 하며, MiniGrid 사회적 내비게이션 실험에서 기존 베이스라인보다 빠른 학습과 높은 보상을 달성한다.

상세 분석

본 연구는 사회적 로봇이 I‑POMDP·베이지안 Theory of Mind(BoTM)의 이론적 장점을 유지하면서, 실제 환경에서 요구되는 계산 효율성과 모델 유연성을 동시에 만족시키는 새로운 프레임워크를 제시한다. 핵심은 Influence‑Augmented Local Model(IALM)이다. IALM은 전역 다중 에이전트 시스템을 로컬 팩터화된 POMDP와 영향 변수 U 로 분해하고, 최소 d‑separating set Dₜ 를 통해 외부 영향 I(uₜ|Dₜ) 를 압축한다. 이렇게 하면 로컬 전이 (\bar T) 가 외부 영향을 마진화한 형태로 표현돼, 전역 상태공간을 탐색할 필요 없이 로컬 정책을 최적화할 수 있다.

다음 단계는 로컬 전이를 학습하는 신경‑심볼릭 세계 모델이다. 저자는 이산 변분 오토인코더(dVAE)와 Gumbel‑Softmax를 이용해 관측 oₜ 를 (C, F) 형태의 이산 잠재 변수로 인코딩하고, 이를 (N, K) 팩터화된 상태 xₜ 로 매핑한다. 전이 모델 (\dot T) 은 α‑entmax 기반 교차‑어텐션을 사용해 상태 팩터 간 부모‑자식 관계를 자동으로 학습하고, 불필요한 연결을 0 으로 강제해 구조적 희소성을 확보한다. 이는 기존 딥 모델이 그래프 구조를 암시적으로 학습하는 것과 달리, 명시적인 DBN 구조를 유지하면서도 데이터‑드리븐하게 파라미터를 조정한다는 장점이 있다.

가장 혁신적인 기여는 ‘관점‑전환 연산자’를 슈뢰딩거 브리지(SB) 형태로 구현한 점이다. SB는 시작·종료 마진(즉, 자기 중심 믿음 b₀ 와 목표 타인 중심 믿음 bₙ )을 연결하는 최적 경로 분포를 찾는 동적 엔트로피 최적수송 문제이며, 여기서는 학습된 (\dot T) 를 기준 동역학으로 삼아 시간‑가변 전이 (\bar T_t) 를 Doob h‑transform 형태로 얻는다. 전위 ϕₜ, ψₜ 는 BiGRU 기반 양방향 시퀀스 모델로 amortized 학습되며, α‑entmax 어텐션을 통해 행동‑로컬‑상태 히스토리 hₜ 로부터 최소 d‑set Dₜ₊₁ 을 직접 추출한다. 학습 시에는 ‘epistemic counterfactuals’라 부르는 가상의 타인 중심 믿음 bₙ 을 환경에서 샘플링해 KL (P_{\bar T}|P_{\dot T}) 를 최소화한다. 추론 단계에서는 이 잠재 포텐셜을 이용해 (\dot T) 를 실시간으로 ‘tilt’ 시켜, 주어진 행동 시퀀스 a₀:ₙ₋₁ 와 관측 (\hat x_i) 에 대해 타인 중심 믿음 (\hat b_i) 를 즉시 생성한다.

실험은 MiniGrid의 ‘person‑following’ 시나리오에서 수행되었다. 로봇은 부분 관측 환경에서 고정 정책 에이전트를 따라가며 사회적 규범(충돌 회피, 시야 유지)을 만족해야 한다. 제안된 SB 기반 관점 전환은 (1) 완전 정보 베이스라인(실제 타인 믿음), (2) 무정보(균등) 베이스라인, (3) 단순 (\dot T) 롤아웃 기반 베이스라인에 비해 학습 속도가 현저히 빠르고, 최종 누적 보상이 가장 높았다. 이는 ‘컨텍스트‑어웨어’ 정신‑상태 계획이 ‘컨텍스트‑프리’ 추정보다 효율적임을 실증한다.

제한점으로는 현재 모든 타인 에이전트가 동일한 인식·행동 모델을 공유한다는 가정이 있다. 저자는 향후 이질적 에이전트에 대해 ‘heterogeneous epistemic counterfactuals’를 도입해 belief‑to‑belief 변환을 적응시키는 방향을 제시한다. 또한, 현재는 잠재 공간이 이산이며, 연속형 감각(예: 비전)과의 통합, 대규모 다중 에이전트 시나리오에서의 확장성 검증이 남아 있다.

전반적으로 이 논문은 (1) 영향‑증강 로컬 분해를 통한 구조적 복잡도 감소, (2) 신경‑심볼릭 DBN을 통한 데이터‑드리븐 정신‑모델 학습, (3) 슈뢰딩거 브리지를 활용한 실시간 belief‑transport라는 세 축을 결합해, 사회적 로봇이 인간과의 협업에서 필요한 ‘관점 전환’을 계산적으로 실현 가능한 형태로 제시한다는 점에서 학술적·실용적 의의가 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기