잠재 시각 구조 추론 LanteRn
LanteRn은 대형 멀티모달 모델에 텍스트와 압축된 잠재 시각 토큰을 교차 삽입하도록 확장한 프레임워크이다. 두 단계 학습(시각 지도 기반 감독 미세조정 + 정책 최적화 기반 강화학습)을 통해 모델이 이미지 정보를 직접 잠재 공간에서 사고하고, 필요 시 텍스트와 전환하면서 고해상도 픽셀 연산 없이도 정밀한 공간·시각 추론을 수행한다. VisCoT, V★, Blink 등 세 벤치마크에서 시각적 정합성과 미세 추론 능력이 향상된 것으로 보고된다.
저자: André G. Viveiros, Nuno Gonçalves, Matthias Lindemann
본 논문은 대형 멀티모달 모델(LMM)이 이미지 정보를 텍스트로 변환한 뒤 추론하는 기존 접근법의 한계를 지적한다. 특히 고해상도 시각 정보를 저대역폭 텍스트로 압축하면, 미세한 공간 관계나 시각적 디테일을 놓치게 된다. 이를 해결하기 위해 저자들은 LanteRn(Latent Visual Structured Reasoning)이라는 새로운 프레임워크를 제안한다. LanteRn은 기존 Vision‑Language Transformer에 “잠재 시각 토큰”을 삽입할 수 있는 메커니즘을 추가한다. 구체적으로, <|lvr_start|> 토큰이 출력되면 모델은 이후 K 단계 동안 언어 헤드를 우회하고, 최종 트랜스포머 레이어의 비투영 hidden state를 그대로 내보낸다. 이 K개의 연속형 벡터는 압축된 시각 생각(visual thought) 임베딩으로, 모델 내부에서 자유롭게 attend될 수 있다. <|lvr_end|> 토큰이 나오면 다시 텍스트 모드로 전환한다. 이렇게 텍스트와 잠재 시각 토큰을 교차 삽입함으로써, 모델은 필요 시 시각 정보를 직접 내부 공간에서 조작하고, 불필요한 픽셀 연산을 피한다.
학습은 두 단계로 진행된다. 첫 번째 단계인 Supervised Fine‑Tuning(SFT)에서는 시각‑CoT 데이터셋을 활용해, 인간이 제공한 추론 트레이스와 바운딩 박스 정보를 기반으로 목표 잠재 벡터(Z_target)를 생성한다. VisionEncoder를 이용해 해당 영역의 피처를 추출하고 평균 풀링해 고정 길이 시퀀스로 만든 뒤, 모델이 생성한 잠재 시퀀스와 MSE 손실을 최소화한다. 동시에 텍스트 토큰에 대해서는 기존 교차 엔트로피 손실을 적용한다. 이 단계는 모델이 “시각 생각”을 실제 시각 피처와 정렬하도록 강제한다.
두 번째 단계인 Reinforcement Learning(RL)에서는 정책 최적화 기법인 Group Relative Policy Optimization(GRPO)을 사용한다. 여기서는 텍스트 토큰에 대한 확률 분포만을 정책 목표로 삼고, 잠재 벡터는 텍스트 생성의 조건 변수로 취급한다. 롤아웃 동안 생성된 잠재 시퀀스를 고정(잠재 상태 리플레이)하고, 텍스트 정책만을 업데이트함으로써, 잠재 벡터가 텍스트 예측에 미치는 영향을 간접적으로 학습한다. 보상은 두 부분으로 구성된다. 첫 번째는 최종 정답이 정답과 일치하면 1, 아니면 0인 정확도 보상(R_acc)이며, 두 번째는 <|lvr_start|>, <|lvr_end|>, 등 지정된 태그 사용을 장려하는 형식 보상(R_fmt)이다. 이를 통해 모델이 반드시 잠재 시각 블록을 사용하도록 강제한다.
실험에서는 세 가지 시각‑중심 벤치마크에 대해 평가하였다. VisCoT는 이미지와 질문, 상세 추론 트레이스를 제공하는 데이터셋으로, 모델이 시각적 근거를 정확히 찾아야 한다. V★는 복합적인 시각 추론을 요구하고, Blink은 짧은 질문에 대한 빠른 응답을 테스트한다. LanteRn은 기존 LMM 대비 정확도와 시각 정합 점수에서 일관된 향상을 보였으며, 특히 “앞에 있는 자전거는 무엇인가?”와 같이 미세한 위치 관계를 묻는 질문에서 큰 성능 차이를 나타냈다. 계산 효율성 측면에서도, 픽셀 기반 이미지 생성이나 외부 도구 호출을 배제함으로써 추론 시간과 메모리 사용량이 현저히 감소하였다.
논문의 주요 기여는 다음과 같다. (1) 텍스트와 잠재 시각 토큰을 교차 삽입하는 구조적 사고 흐름을 제안하여, 이미지 정보를 저대역폭 텍스트로 변환하지 않아도 된다. (2) 시각 인코더를 활용한 감독 학습으로 잠재 시각 토큰을 실제 시각 피처에 정렬시키는 방법을 제시한다. (3) 하이브리드 행동 공간을 갖는 RL 프레임워크를 도입해, 결과 기반 보상으로 잠재 시각 토큰의 유용성을 최적화한다. (4) 다양한 시각‑중심 벤치마크에서 성능 및 효율성 모두 개선된 것을 실증한다.
한계점으로는 잠재 벡터의 해석 가능성이 낮아, 인간이 직접 검증하거나 디버깅하기 어렵다는 점, K값과 풀링 방식에 따라 성능이 민감하게 변할 수 있다는 점, 그리고 RL 단계에서 정책 불안정성이 발생할 가능성이 있다는 점을 들 수 있다. 향후 연구에서는 잠재 공간을 더 구조화(예: 클러스터링 기반 시각 개념)하거나, 대규모 멀티모달 사전학습 단계에서 텍스트와 잠재 시각 토큰을 공동 최적화하는 방안을 모색할 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기