능동적 시각‑언어 추론, ViThinker가 답이다
초록
ViThinker는 비전‑언어 모델이 스스로
상세 분석
본 논문은 기존 비전‑언어 모델(VLM)이 텍스트‑중심 CoT(Chain‑of‑Thought) 방식으로 조기에 시각 정보를 텍스트로 변환하면서 발생하는 연속적인 기하·공간 레이아웃 손실을 근본적으로 해결하고자 한다. 이를 위해 저자들은 인간의 능동적 지각 메커니즘을 모방한 “활동적 시각‑언어 추론” 프레임워크인 ViThinker를 제안한다. 핵심 아이디어는 모델이 자체적으로 Decision Token(예: <query_seg>, <query_depth>)을 발행하면, 사전 학습된 시각 전문가(SAM, DepthAnything, PIDINet, DINOv2)의 특성을 내부 파라미터에 정렬시켜 즉시 Observation Token을 생성하도록 하는 것이다.
ViThinker의 학습은 두 단계 커리큘럼으로 진행된다. 1단계에서는 frozen 전문가들의 출력(세그멘테이션 마스크, 깊이 맵, 엣지 지도, 패치 임베딩)을 입력 컨텍스트에 앞에 붙이고, 모델이 해당 Decision Token에 대응하는 Observation Token을 학습하도록 다중 손실(L_seg, L_depth, L_edge, L_patch)을 적용한다. 이 과정에서 각 Proj_m 헤드가 모델 히든 상태를 전문가 특성 공간으로 투사하고, 거리 함수 D (예: Dice, L1, MSE)를 최소화함으로써 전문가 지식을 파라메트릭 메모리로 내재화한다.
2단계에서는 “언제 look”을 학습한다. 다양한 합리적 추론 경로(전체 전문가 사용, 부분 사용, 최소 사용)를 Gemini Flash를 이용해 자동 생성하고, 각 경로에 대해 동일한 정답을 달성하도록 허용한다. 이렇게 다중 정답 공간을 제공함으로써 모델은 작업에 가장 효율적인 질의 조합을 스스로 선택한다. 선택 압력을 주기 위해 Decision Token의 개수를 직접 페널티화하는 sparsity 손실 L_p = ∑t ω(Q_t)·N을 도입한다. 여기서 ω 은 토큰 위치 가중치, N은 해당 토큰당 생성되는 Observation Token 수이다. 최종 손실은 L_sample = min{s∈S_valid}
댓글 및 학술 토론
Loading comments...
의견 남기기