무한 히스토리와 장기 기억을 위한 임베디드 탐색 프레임워크
초록
∞‑THOR는 장기 임베디드 작업을 위한 생성·학습·평가 파이프라인을 제공한다. 무한히 긴 궤적을 합성하고, 다중 단서가 흩어져 있는 장기 질문(NiEH) 과제를 도입해 시각·언어 정보를 수백 단계에 걸쳐 기억·추론하도록 만든다. 논문은 Goal‑State‑Action 인터리브와 메모리‑증강 모델, 컨텍스트 확장·패러렐리즘 기법을 탐색하고, 실험을 통해 장기 컨텍스트 학습의 중요성과 시뮬‑실전 전이 가능성을 입증한다.
상세 분석
∞‑THOR는 기존 AI2‑THOR 기반 시뮬레이터 위에 장기 궤적 생성 프레임워크를 겹쳐, 400 ~ 900 스텝에 달하는 수백 개의 에피소드를 자동으로 합성한다. 핵심 아이디어는 여러 단일 작업 시연을 PDDL 플래너로 연결해 일관된 상태 전이를 보장하고, 초기 20 %와 최종 20 % 구간에 등장하는 객체를 결합해 “Tomato‑to‑Counter”와 같은 장기 의존 목표를 만든다. 이렇게 만든 데이터는 오프라인 모방학습과 온라인 정책 평가 모두에 활용될 수 있다.
학습 모델 측면에서는 두 가지 아키텍처를 비교한다. 첫 번째는 Goal‑State‑Action 인터리브 방식으로, 시각·언어·행동을 하나의 멀티모달 시퀀스로 직렬화해 1 M 토큰 이상을 처리한다. 두 번째는 메모리‑증강 Goal‑State 모델로, 과거 궤적을 요약 텍스트 혹은 시각 메모리 슬롯에 압축해 컨텍스트 윈도우를 크게 줄이면서도 장기 정보를 검색한다. 두 접근법 모두 최신 LLM 기반 VLM(LLaVA‑OneVision, Qwen2.5‑VL 등)을 백본으로 사용한다.
컨텍스트 확장 기법으로는 선형 보간, 동적 스케일링, YARN, LongRoPE 등을 적용해 토큰 길이를 1 M ~ 1.3 M까지 확장한다. 또한 Ring‑Attention 기반 컨텍스트 패러렐리즘을 도입해 다중 GPU에 걸친 효율적인 파인튜닝을 가능하게 하였으며, 이는 메모리 사용량을 30 % 이상 절감하면서도 학습 속도를 2배 가량 높였다.
실험 결과는 세 가지 주요 인사이트를 제공한다. 첫째, 긴 컨텍스트를 그대로 제공받은 모델이 요약 기반 메모리 모델보다 평균 정확도 12 %p 상승했으며, 특히 다중 단서 질문에서 차이가 크게 나타났다. 둘째, 컨텍스트 패러렐리즘을 적용한 경우 동일한 하드웨어에서 1.8× 빠른 학습이 가능했으며, 토큰 길이 1.2 M을 초과해도 안정적인 수렴을 보였다. 셋째, 생성된 QA 데이터셋을 포토리얼리스틱 벤치마크(예: Habitat‑3.0)와 결합하면 성능이 최대 +11.2 %p 향상되었고, ManipulaTHOR와 연동해 로봇 팔 조작까지 구현함으로써 시뮬‑실전 전이 가능성을 입증했다.
전체적으로 ∞‑THOR는 장기 임베디드 AI 연구에 필요한 데이터·환경·모델·학습 인프라를 한 번에 제공함으로써, 기존 50 ~ 300 스텝 수준의 한계를 뛰어넘는 새로운 연구 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기