테스트 시 물리적 프롬프트로 VLM 강인성 강화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 카메라의 ISO, 셔터 스피드, 조리개를 “물리적 프롬프트”로 활용해, 테스트 시점에 다중 물리적 뷰를 수집하고, 소스 도메인과의 특징 정합도와 예측 엔트로피를 기준으로 최적의 뷰를 선택·투표함으로써 VLM의 견고성을 크게 향상시키는 MVP 프레임워크를 제안한다.

상세 분석

MVP는 기존 테스트‑타임 어댑테이션(TTA)이 이미지가 이미 캡처된 후 디지털 레벨에서만 수행된다는 한계를 극복한다. 카메라 노출 삼각형(ISO, 셔터 스피드, 조리개)을 물리적 프롬프트로 정의하고, 동일 장면에 대해 M개의 서로 다른 설정을 적용해 물리적 뷰 라이브러리를 만든다. 각 물리적 뷰는 N개의 가벼운 디지털 증강을 통해 확장되며, 여기서 α 비율만큼 높은 신뢰도를 보이는 증강만을 선택한다. 특징 정합도는 CLIP‑기반 VLM의 각 레이어별 평균·분산(µ, σ²)을 사용해 소스 데이터(ImageNet)와의 L2 거리로 측정하고, 이를 음수화한 S_i를 소스‑친화도 점수로 정의한다. 상위 k개의 물리적 설정을 선택한 뒤, 모든 선택된 증강에 대해 샤논 엔트로피 H_i,n을 계산하고, 하위 γ%의 저엔트로피 뷰만 남긴다. 최종 예측은 제로‑온도 소프트맥스, 즉 하드 보팅으로 집계한다. 이 과정은 전혀 역전파를 요구하지 않으며, 모델 내부를 수정할 필요가 없으므로 “그레이‑박스” API에도 적용 가능하다. 실험에서는 ImageNet‑ES와 ImageNet‑ES‑Diverse 두 벤치마크에서 자동 노출(AE) 단일 캡처 대비 최고 25.6 pp, 기존 센서 제어 기반 파이프라인 대비 3.4 pp의 정확도 향상을 기록한다. 또한 후보 파라미터 수를 감소시켜 캡처 지연을 줄여도 성능 저하가 미미해 실시간 로봇이나 AR 디바이스에 실용적이다. 핵심 인사이트는 (1) 물리적 뷰 선택에 소스‑특성 정합도를 활용하면 사전 학습 편향과의 정렬이 강화돼 제로샷 성능이 회복된다, (2) 엔트로피 기반 필터링이 과신 문제를 완화하고, (3) 하드 보팅이 로그잇 스케일 차이를 없애며 안정적인 집계가 가능하다는 점이다.

테스트 시 물리적 프롬프트로 VLM 강인성 강화

초록

상세 분석

댓글 및 학술 토론

의견 남기기