장면 맥락과 의미 위반이 비전‑언어 모델의 객체 명명에 미치는 영향

장면 맥락과 의미 위반이 비전‑언어 모델의 객체 명명에 미치는 영향
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

COOCo 데이터셋을 통해 객체와 배경의 의미적 일치 정도와 시각적 노이즈가 VLM의 객체 명명에 미치는 영향을 조사하였다. 모델들은 장면‑객체 의미 적합도가 높을 때는 맥락을 활용해 정확도를 높이고, 낮을 때는 오히려 방해 요소가 된다. 중간 층의 어텐션이 목표 객체에 집중될수록 분류 정확도가 상승하며, 의미 적합도가 매우 낮거나 매우 높을 때 어텐션이 증가하는 비단조적 패턴이 관찰되었다.

상세 분석

본 논문은 비전‑언어 모델(VLM)이 객체를 명명할 때 장면 맥락을 어떻게 활용하는지를 정량·정성적으로 파악하기 위해 새롭게 구축한 COOCo 데이터셋을 제시한다. COOCo는 COCO‑Search18에서 추출한 2,241개의 원본 이미지를 기반으로, 대상 객체를 저·중·고 의미 적합도에 따라 다른 객체로 교체하고, 대상·배경에 가우시안 노이즈를 적용한 5가지 변형을 만든다. 이렇게 구성된 18,395장의 이미지에는 원본, 동일 객체 교체, 고·중·저 적합도 교체, 그리고 대상이 완전히 제거된 버전이 포함된다.

실험에서는 KOSMOS‑2, Molmo, xGen‑MM‑Phi3/BLIP‑3, LLaVA‑OneVision, Qwen2.5‑VL 등 5개의 최신 SOTA VLM을 동일한 ROI 프롬프트(“What is the object in this part of the image


댓글 및 학술 토론

Loading comments...

의견 남기기