인스턴스‑IT: 시각 프롬프트 기반 멀티모달 모델의 세밀한 객체 이해 강화
초록
Inst‑IT는 명시적 시각 프롬프트와 대규모 인스턴스‑레벨 instruction‑tuning 데이터를 활용해 기존 대형 멀티모달 모델(LMM)의 이미지·비디오 내 개별 객체 이해 능력을 크게 향상시키는 프레임워크이다. 자동화된 어노테이션 파이프라인으로 51k 이미지·21k 비디오에 대해 인스턴스‑별 설명, 전체 캡션, 시간적 변화, QA 쌍 등을 생성하고, 이를 연속 instruction‑tuning에 통합한다. 실험 결과 Inst‑IT 튜닝 모델은 제안한 Inst‑IT Bench와 기존 인스턴스 이해 벤치마크에서 현저히 높은 점수를 얻으며, AI2D·ChartQA·EgoSchema·NExT‑QA 등 일반 이미지·비디오 이해 벤치마크에서도 4‑13% 수준의 성능 향상을 보인다.
상세 분석
Inst‑IT 논문은 멀티모달 대형 모델이 “전체적인” 시각 정보를 파악하는 데는 뛰어나지만, 사용자가 관심을 갖는 특정 객체(인스턴스)에 대한 미세한 속성·관계·시간적 변화를 정확히 파악하지 못한다는 문제점을 지적한다. 이를 해결하기 위해 세 가지 핵심 요소를 제시한다. 첫째, 시각 프롬프트(Visual Prompt) 로서 Set‑of‑Marks(SoM) 방식을 도입한다. 이미지·비디오 프레임에 숫자 ID를 겹쳐 넣어 GPT‑4o가 해당 인스턴스에 집중하도록 유도한다. 이는 기존 LMM이 배경 잡음에 의해 발생하는 hallucination을 크게 감소시킨다. 둘째, 대규모 인스턴스‑레벨 Instruction‑Tuning 데이터셋을 자동 생성한다. 파이프라인은 (1) 프레임‑레벨 어노테이션: 각 프레임에 대해 인스턴스‑별 캡션(y_ins), 전체 이미지 캡션(y_img), 이전 프레임과의 차이(y_dif)를 GPT‑4o에게 요청한다; (2) 비디오‑레벨 요약: 모든 프레임 어노테이션을 종합해 시간적·공간적 변화를 포괄하는 비디오 설명을 만든다; (3) QA 쌍 생성: 인스턴스 관계·속성에 초점을 맞춘 개방형 질문·답변을 다수 생성한다. 결과적으로 51k 이미지·21k 비디오(총 207k 이미지 캡션·135k 시간적 설명·21k 비디오 캡션·335k QA)라는 규모의 풍부한 데이터가 확보된다. 셋째, 연속 Instruction‑Tuning 레시피를 제안한다. 기존 일반 멀티모달 instruction‑tuning 데이터와 Inst‑IT 데이터셋을 혼합하고, 시각 프롬프트가 삽입된 입력을 사용해 모델을 단계별로 미세조정한다. 이 과정에서 모델은 “어디에”가 아니라 “어떤 인스턴스가”라는 질문에 대한 정답을 학습하게 된다. 실험에서는 LLaVA‑2 기반 모델에 Inst‑IT 튜닝을 적용했으며, Inst‑IT Bench(인스턴스‑레벨 이해 평가)에서 기존 SOTA 대비 7‑12% 절대 향상을 기록했다. 또한 RefCOCOg·ViP‑Bench 등 다른 인스턴스 이해 벤치마크에서도 일관된 성능 상승을 보였다. 흥미롭게도, AI2D·ChartQA·EgoSchema·NExT‑QA 등 전통적인 이미지·비디오 이해 테스트에서도 각각 4.4%·13.5%·7.8%·11.8%의 개선을 달성, 인스턴스 중심 튜닝이 전반적인 시각‑언어 능력에도 긍정적 영향을 미침을 입증한다. 논문은 또한 기존 이미지‑중심 인스턴스 이해 연구와 달리 비디오 영역을 체계적으로 다루며, 시각 프롬프트와 대규모 자동 어노테이션이 멀티모달 모델의 세밀한 객체 이해를 확장하는 실용적인 경로임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기