통합 비전‑언어 모델로 행동 기반 동역학 예측 부트스트랩
초록
본 논문은 기존 통합 비전‑언어 모델(VLM)이 행동을 언어로 제시했을 때 미래 장면을 이미지로 예측하는 전방 동역학 예측(FDP)에 취약함을 확인한다. 반면, 두 장면 사이의 행동을 텍스트로 캡션하는 역동학 예측(IDP)은 비교적 쉽게 학습될 수 있음을 발견하고, 이를 활용해 FDP를 부트스트랩하는 두 가지 전략을 제안한다. 첫 번째는 IDP로 라벨링한 대규모 합성 영상 데이터를 이용한 약한 지도 학습, 두 번째는 테스트 시 IDP를 검증기로 사용해 여러 후보 이미지 중 가장 행동 일관성이 높은 결과를 선택하는 방법이다. Aurora‑Bench에서 두 VLM 계열(Chameleon‑7B, Liquid‑8B)을 평가한 결과, 제안된 부트스트랩 모델이 최신 이미지 편집 전용 모델들을 7 %~13 % 상회하며 인간 평가에서도 최고 성능을 기록한다.
상세 분석
본 연구는 “전방 동역학 예측(FDP)”과 “역동학 예측(IDP)” 사이의 학습 난이도 차이를 정량적으로 입증함으로써 VLM의 멀티모달 정합성 한계를 명확히 드러낸다. 9종의 최신 VLM(Qwen2‑VL, LLaVA, Chameleon 등)을 5개의 Aurora‑Bench 서브셋에 대해 제로샷으로 평가했을 때, 모델들은 실제 관찰‑행동‑관찰 트리플릿과 인위적으로 변형된 부정 샘플을 구분하는 능력이 50 % 수준에 머물렀다. 특히, 다음 이미지 예측(전방 동역학)에서는 거의 구분이 불가능했으며, 행동 예측(IDP)에서도 가장 높은 정확도는 60 %에 불과했다. 이는 대규모 사전학습이 “이미지‑텍스트 연관성”은 학습했지만, “시간적 인과관계”를 내재화하지 못했음을 시사한다.
그럼에도 불구하고, 동일 모델을 소량의 라벨링된 트리플릿(예: Aurora, EPIC‑Kitchen)으로 미세조정하면 IDP 성능이 무작위 수준을 크게 초과한다는 점을 발견했다. 이는 VLM이 언어‑시각 매핑을 이미 갖추고 있어, 두 관찰 사이의 행동을 추론하는 작업은 비교적 적은 데이터로도 학습될 수 있음을 의미한다. 이러한 비대칭성을 활용해 두 가지 부트스트랩 전략을 설계하였다.
첫 번째 전략은 “약한 지도 학습”이다. 고성능 IDP 모델을 이용해 45시간 분량의 비라벨 비디오( Moments‑in‑Time, Kinetics‑700, UCF‑101)에서 키프레임 쌍을 추출하고, optical flow 기반 동적성 점수를 통해 변화를 많이 보이는 프레임을 선택한다. 이후 IDP가 예측한 행동 텍스트를 라벨로 부여해 약 20K46K 규모의 합성 (소스 이미지, 행동, 타깃 이미지) 트리플릿을 생성한다. 이 데이터를 기존 Aurora의 고품질 트리플릿과 함께 VLM을 FDP 모델(FDM)로 미세조정한다. 여기서 핵심 기여는 “인식‑가중 손실”이다. 이미지 토큰별로 소스‑타깃 간 유사도를 사전 학습된 VLM 인코더로 측정해, 변화를 크게 만든 토큰에 높은 가중치를 부여함으로써 모델이 정적인 배경을 무시하고 행동에 직접적인 시각적 영향을 주는 영역에 집중하도록 유도한다. 실험 결과, 가중 손실을 적용한 FDM은 동일 데이터로 학습한 무가중 버전보다 35 % 절대 성능이 향상되었다.
두 번째 전략은 “테스트‑시 검증”이다. FDM이 N개의 후보 미래 이미지를 샘플링하면, 각 후보와 원본 소스 이미지 쌍을 IDP에 입력해 행동 일관성 확률 p_IDM(a|o_s, o_t^i)를 계산한다. 가장 높은 확률을 보이는 후보를 최종 출력으로 선택한다. 이 방식은 추가 학습 없이도 FDM의 출력 품질을 크게 끌어올리며, 후보 수를 늘릴수록 성능이 점진적으로 개선된다(예: N=5 → N=20). 특히, 복잡한 물리적 변화를 요구하는 Kubric 서브셋에서 검증 전략만 적용했을 때도 기존 diffusion 기반 편집 모델을 능가했다.
전체 실험에서는 두 VLM 계열(Chameleon‑7B, Liquid‑8B)을 각각 위 두 전략에 적용했으며, Aurora‑Bench의 5개 서브셋 전반에 걸쳐 GPT‑4o‑as‑judge와 인간 평가를 수행했다. 가장 좋은 모델(L‑FDM + 가중 손실 + 검증)은 평균 인간 점수 84.3을 기록했으며, 이는 PixInstruct, GoT, SmartEdit 등 최신 이미지‑텍스트 편집 모델보다 7 %~13 % 높은 수치다. 또한, 전방 동역학 모델을 활용한 공간 추론 벤치마크(WhatsUp)에서도 기존 VLM의 제로샷 성능을 크게 초월했다.
이 논문은 (1) VLM이 내재한 전방 동역학 능력이 부족함을 실증하고, (2) 역동학 예측을 통한 데이터 증강 및 검증 메커니즘이 효과적인 부트스트랩 수단임을 입증한다는 점에서 의미가 크다. 향후 연구는 다단계(멀티스텝) 시퀀스 예측, 행동 조건부 비디오 생성, 그리고 물리 엔진과의 혼합 학습을 통해 장기적인 세계 모델링으로 확장할 여지를 남긴다.
댓글 및 학술 토론
Loading comments...
의견 남기기