능동적 시각‑언어 추론, ViThinker가 답이다

능동적 시각‑언어 추론, ViThinker가 답이다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ViThinker는 비전‑언어 모델이 스스로  토큰을 생성해 필요할 때마다 전문가‑정렬 시각 특징을 합성하도록 학습한다. 두 단계 커리큘럼(전문가 지식 내재화 → 질의 정책 최적화)과 sparsity 페널티를 통해 최소한의 충분한 인지를 학습하고, 기존의 수동적 특징 열거·선택 방식보다 일관된 성능 향상을 달성한다.

상세 분석

본 논문은 기존 비전‑언어 모델(VLM)이 텍스트‑중심 CoT(Chain‑of‑Thought) 방식으로 조기에 시각 정보를 텍스트로 변환하면서 발생하는 연속적인 기하·공간 레이아웃 손실을 근본적으로 해결하고자 한다. 이를 위해 저자들은 인간의 능동적 지각 메커니즘을 모방한 “활동적 시각‑언어 추론” 프레임워크인 ViThinker를 제안한다. 핵심 아이디어는 모델이 자체적으로 Decision Token(예: <query_seg>, <query_depth>)을 발행하면, 사전 학습된 시각 전문가(SAM, DepthAnything, PIDINet, DINOv2)의 특성을 내부 파라미터에 정렬시켜 즉시 Observation Token을 생성하도록 하는 것이다.

ViThinker의 학습은 두 단계 커리큘럼으로 진행된다. 1단계에서는 frozen 전문가들의 출력(세그멘테이션 마스크, 깊이 맵, 엣지 지도, 패치 임베딩)을 입력 컨텍스트에 앞에 붙이고, 모델이 해당 Decision Token에 대응하는 Observation Token을 학습하도록 다중 손실(L_seg, L_depth, L_edge, L_patch)을 적용한다. 이 과정에서 각 Proj_m 헤드가 모델 히든 상태를 전문가 특성 공간으로 투사하고, 거리 함수 D (예: Dice, L1, MSE)를 최소화함으로써 전문가 지식을 파라메트릭 메모리로 내재화한다.

2단계에서는 “언제 look”을 학습한다. 다양한 합리적 추론 경로(전체 전문가 사용, 부분 사용, 최소 사용)를 Gemini Flash를 이용해 자동 생성하고, 각 경로에 대해 동일한 정답을 달성하도록 허용한다. 이렇게 다중 정답 공간을 제공함으로써 모델은 작업에 가장 효율적인 질의 조합을 스스로 선택한다. 선택 압력을 주기 위해 Decision Token의 개수를 직접 페널티화하는 sparsity 손실 L_p = ∑t ω(Q_t)·N을 도입한다. 여기서 ω 은 토큰 위치 가중치, N은 해당 토큰당 생성되는 Observation Token 수이다. 최종 손실은 L_sample = min{s∈S_valid}


댓글 및 학술 토론

Loading comments...

의견 남기기