계층 시각 단서 주입을 통한 다중모달 잠재 추론
초록
HIVE는 기존 MLLM의 빠른 일회성 추론을 넘어, 반복적인 루프 트랜스포머와 계층적 시각 단서를 잠재 공간에 직접 주입함으로써 “느린 사고”를 구현한다. 시각 정보를 다중 스케일로 정렬하고, 재귀적 블록을 통해 테스트 시점에 깊이를 조절해 다단계 추론을 수행한다. 실험 결과, 시각 지식이 테스트‑타임 스케일링에 크게 기여하고, 복잡한 장면 이해에서 계층적 시각 주입이 성능을 크게 향상시킴을 보인다.
상세 분석
본 논문은 다중모달 대형 언어 모델(MLLM)의 추론 메커니즘을 근본적으로 재구성한다. 기존 모델들은 시각 특징을 언어 토큰 공간에 투사한 뒤, 단일 패스 디코더에 입력하여 “시스템 1”식 빠른 사고를 수행한다. 이러한 접근은 직관적이지만, 복합적인 논리 추론이나 다단계 사고가 요구되는 상황에서 텍스트 중심의 체인‑오브‑쓰(Chain‑of‑Thought) 의존도가 높아 과도한 토큰 사용과 환각 위험을 초래한다.
HIVE는 두 가지 핵심 혁신을 제시한다. 첫째, Huginn 기반의 루프 트랜스포머 구조를 도입해 동일 블록을 여러 번 순환함으로써 “깊이”와 “반복 횟수”를 파라미터 수와 무관하게 조절한다. 이는 재귀적 연산을 통해 은닉 상태를 점진적으로 정제하고, 테스트 시점에 원하는 만큼의 사고 깊이를 제공한다는 점에서 기존 고정‑깊이 트랜스포머와 차별된다. 둘째, 시각 정보를 단일 레이어가 아닌 4개의 계층(6, 12, 18, 24)에서 추출해 단계별로 주입한다. 저레벨 레이어는 텍스처·에지 등 고해상도 정보를, 고레벨 레이어는 전역적인 의미와 객체 관계를 제공한다. 이러한 “시각 커리큘럼”은 초기 반복 단계에서 모델이 구체적인 시각 단서를 받아들여 은닉 상태의 안정성을 높이고, 이후 반복에서는 언어 기반 추론에 집중하도록 설계되었다.
주입 스케줄은 두 경우로 나뉜다. 충분한 반복(R ≥ 4)에서는 상향‑하향 순서로 모든 계층을 주입하고, 이후 순수 언어 모델링을 수행한다. 반복이 제한적(R < 4)일 경우, 계층을 간격을 두고 선택해 대표적인 시각 정보를 유지한다. 또한, 훈련 시 반복 깊이를 포아송·로그‑노멀 분포로 샘플링해 모델이 고정된 단계에 의존하지 않도록 강제한다. 이는 테스트 시점에 깊이를 자유롭게 늘리거나 줄일 수 있는 유연성을 제공한다.
실험에서는 Vision‑Language 벤치마크와 복합 장면 이해 과제에서 HIVE가 기존 MLLM 대비 눈에 띄는 성능 향상을 보였으며, 특히 테스트‑타임에 시각 지식을 추가로 스케일링했을 때 정확도와 일관성이 크게 개선되었다. 이는 잠재 공간에서의 “느린 사고”가 시각·언어 정합성을 강화하고, 체인‑오브‑쓰 없이도 다단계 논리 추론이 가능함을 입증한다.
전반적으로 HIVE는 (1) 재귀적 트랜스포머를 통한 깊이‑가변 추론, (2) 계층적 시각 단서 주입을 통한 멀티스케일 정렬, (3) 확률적 반복 깊이 샘플링을 통한 훈련 안정성이라는 세 축을 결합해, 다중모달 잠재 추론 분야에 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기