Thinker 구현 지능을 위한 비전 언어 기반 모델
초록
Thinker는 로봇의 1인칭 시점 영상과 공간·시간 정보를 효과적으로 이해하도록 설계된 대규모 비전‑언어 기반 모델이다. 시각적 그라운딩, 이고‑뷰 추론, 장기 계획 데이터를 포함한 4가지 맞춤형 데이터셋을 구축하고, 핵심 프레임과 전체 영상을 동시에 입력으로 활용하는 간단하지만 강력한 학습 방식을 도입했다. 10 억 파라미터 규모의 베이스 모델에 두 단계 학습(기본 능력 습득 → 다운스트림 미세조정)을 적용해 로보VQA와 Egoplan‑bench2 벤치마크에서 기존 최첨단 모델들을 앞섰다.
상세 분석
Thinker 논문은 로봇 분야에 VLM을 적용할 때 발생하는 근본적인 두 문제—제3자 시점과 제1자 시점 혼동, 영상 끝부분 정보 누락—를 정확히 짚어낸다. 이를 해결하기 위해 저자들은 (1) 로봇 인지와 추론에 특화된 대규모 데이터셋을 네 가지 카테고리(시각적 그라운딩, 이고‑뷰 추론, 로봇 조작 계획, 산업 현장 계획)로 설계했으며, 각각의 데이터는 기존 공개 데이터(LVIS, Pixmopoint 등)를 재구성하거나 자체 필터링·어노테이션을 통해 100 K~1.8 M 규모로 확장했다. 특히 Ego‑View 데이터는 영상의 마지막 프레임을 별도 라벨로 제공해 시간적 맥락을 보강하고, 다중 선택형 질문을 통해 모델이 행동 순서를 정확히 파악하도록 유도한다.
모델 아키텍처는 텍스트 토크나이저, 비전 인코더, 다층 퍼셉트론, 그리고 대형 언어 모델(LLM) 백본으로 구성된다. 핵심 혁신은 “키 프레임 + 전체 영상”을 동시에 입력에 포함시키는 방식이다. 비전 인코더는 전체 프레임을 시계열 토큰 시퀀스로 변환하고, 마지막 프레임은 별도 어댑터를 거쳐 고해상도 정보를 보존한다. 이렇게 얻어진 시각 토큰과 텍스트 토큰을 하나의 시퀀스로 결합해 디코더가 처리함으로써, 모델은 영상 전체의 흐름과 중요한 순간을 동시에 고려할 수 있다.
학습은 두 단계로 진행된다. 1단계에서는 위에서 만든 네 종류 데이터셋을 혼합해 기본적인 공간·시간 이해와 객체 그라운딩 능력을 학습한다. 여기서 동적 샘플러가 각 태스크의 검증 손실을 모니터링해 데이터 비중을 자동 조정함으로써, 데이터 불균형 문제를 완화한다. 2단계에서는 산업용 계획 데이터(Industroplan‑200K)로 감독 학습을 수행해 장기 목표와 순차적 의존성을 명시적으로 학습한다. 이 단계에서 체인‑오브‑생각(chain‑of‑thought) 어노테이션을 활용해 모델이 복잡한 계획 과정을 단계별로 설명하도록 유도한다.
실험 결과는 두 주요 벤치마크에서 기존 최첨단 모델을 능가한다. 로보VQA에서는 BLEU‑14 모두 0.81.0 포인트 상승했으며, 특히 GPT‑4V 대비 10 % 이상 성능 차이를 보였다. Egoplan‑bench2에서는 Top‑1 정확도 58.2 %를 기록해 모든 비교 모델을 앞섰다. 이러한 성과는 (1) 이고‑뷰와 키 프레임을 동시에 활용한 시계열 인코딩, (2) 로봇 전용 데이터셋으로 사전 학습한 공간·시간 이해, (3) 두 단계 학습 전략이 서로 보완적으로 작용했기 때문으로 해석된다.
인프라 측면에서도 저자들은 대규모 멀티태스크 학습을 위한 통합 샘플링 스키마, 공유 메모리 로딩, 동적 태스크 믹싱 등을 구현해 GPU 메모리 효율성을 높였으며, 파이프라인 전반에 걸친 자동 모니터링·체크포인팅 시스템을 구축해 장시간 학습의 안정성을 확보했다. 향후 계획으로는 모델을 오픈소스로 공개하고, 세계 모델(world model) 및 비디오‑언어‑액션 연계 연구를 진행한다는 점에서, Thinker가 로봇 지능 연구의 기반 플랫폼으로 자리매김할 가능성이 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기