시각 언어 모델 주의력을 활용한 인터랙티브 시각 정합 및 모호성 탐지

시각 언어 모델 주의력을 활용한 인터랙티브 시각 정합 및 모호성 탐지
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CLUE는 대형 시각‑언어 모델(VLM)의 텍스트‑이미지 교차 주의 맵을 활용해 인간‑로봇 대화에서 언제 질문을 해야 하는지를 명시적으로 판단한다. 경량 CNN이 주의 맵을 입력받아 참조 모호성을 분류하고, LoRA‑튜닝된 디코더가 대화를 진행하며 위치 토큰을 출력한다. 실세계 인터랙티브 비주얼 그라운딩(InViG) 데이터와 합성 시뮬레이션 데이터로 학습한 결과, 기존 최첨단 방법을 능가하면서 파라미터 효율성을 유지한다.

상세 분석

본 논문은 인터랙티브 비주얼 그라운딩(IVG) 과제에서 “언제 질문을 해야 하는가”라는 메타‑결정 문제를 VLM 내부의 교차 주의 메커니즘으로 해결한다는 점에서 혁신적이다. 기존 연구들은 주로 후보 객체 수, 토큰‑레벨 불확실성, 혹은 정책‑레벨 엔트로피와 같은 히스토리 기반 휴리스틱에 의존했으며, 이러한 신호는 시각적 구조와 직접 연결되지 못했다. CLUE는 텍스트‑이미지 어텐션을 32×32 패치 수준으로 추출하고, 각 헤드별 정규화를 거친 뒤 평균 집계하여 하나의 공간 맵을 만든다. 이 맵은 텍스트 토큰이 이미지 패치에 얼마나 고르게 분산되는지를 반영하므로, 다수의 후보가 동시에 활성화될 때(즉, 모호한 상황) 높은 분산이 관찰된다. 경량 CNN(예: 3‑conv‑layer)으로 이 맵을 입력받아 이진 모호성 확률을 예측하도록 학습함으로써, “어디서 혼란이 발생했는가”라는 직관적 시각 신호를 얻는다.

모델 아키텍처는 두 개의 LoRA 어댑터를 사용한다. 어댑터 A는 모호성 탐지 전용, 어댑터 B는 실제 IVG(질문 생성·위치 토큰 출력) 전용으로 설계돼 파라미터 효율성을 극대화한다. 디코더는 PaliGemma‑2‑3B‑mix‑448 기반이며, “” 토큰을 프리픽스로 사용해 이미지와 대화 컨텍스트를 동시에 인코딩한다. 토큰‑레벨 교차 엔트로피 손실만을 목표 함수로 적용해 질문 혹은 위치 토큰을 순차적으로 생성한다.

학습 데이터는 크게 두 부분으로 구성된다. 첫 번째는 InViG‑21K의 인간‑대‑인간 대화 서브셋으로, 실제 로봇‑사용자 상호작용 상황을 제공한다. 두 번째는 Isaac Sim 기반의 합성 테이블탑 씬(2000개)과 IT2P 데이터(477이미지)에서 만든 4000여 개의 이미지‑명령 쌍이다. 합성 데이터는 최소 두 개 이상의 시각적으로 유사한 객체를 포함하도록 설계돼, “중복된 객체를 가져와라”와 같은 모호한 명령을 자연스럽게 생성한다. 평가용 OOD 데이터는 InViG에서 별도로 라벨링한 100개의 실제 이미지(각각 모호·비모호 라벨)이다.

실험 결과, 교차 주의 맵을 활용한 모호성 탐지기는 F1 점수에서 기존 Grad‑CAM 기반 방법이나 단순 확률 임계값 방식보다 현저히 높은 성능을 보였다. 또한 IVG 전체 파이프라인은 InViG‑only 설정에서도 TiO와 같은 최신 모델을 능가했으며, 파라미터 수는 LoRA 어댑터만 추가된 수준에 머물러 효율성도 확보했다. Ablation 연구에서는 14번째 디코더 레이어가 가장 풍부한 모호성 신호를 제공함을 확인했으며, 레이어를 깊게 할수록 성능이 점진적으로 향상되는 경향을 보였다.

이러한 접근은 VLM이 이미 학습한 다중 객체 로컬라이제이션 능력을 “잠재적 모호성 신호”로 재활용한다는 점에서, 별도 모듈을 설계하거나 대규모 라벨링 없이도 실시간 로봇 대화 시스템에 적용 가능함을 시사한다. 또한, 주의 맵 자체가 시각적 근거를 제공하므로 인간‑로봇 인터페이스에서 투명성과 해석 가능성을 크게 향상시킨다.


댓글 및 학술 토론

Loading comments...

의견 남기기