같은 답 다른 표현 비전언어모델의 숨은 불안정성
초록
본 논문은 비전‑언어 모델(VLM)의 출력 일관성만으로는 내부 처리의 안정성을 판단할 수 없음을 지적한다. 이미지에 텍스트 오버레이, 회전·스케일링·크롭 등 의미를 보존하는 변형을 가했을 때, 모델은 정답을 유지하지만 내부 임베딩은 크게 변동한다. 이러한 “표현 드리프트”는 모델 규모와 무관하게 발생하며, 과제 유형에 따라 오류 양상이 달라진다. 저자는 임베딩 드리프트, 스펙트럼 민감도, 토큰 구조적 매끄러움(Dirichlet Energy) 등을 측정하는 평가 프레임워크를 제안하고, SEED‑Bench, MMMU, POPE 데이터셋에 적용해 세 가지 주요 실패 모드를 규명한다.
상세 분석
논문은 먼저 기존 VLM 견고성 평가가 “출력 수준 불변성”에만 초점을 맞추어, 모델이 동일한 정답을 반환하더라도 내부 표현이 크게 변할 수 있음을 간과한다는 점을 강조한다. 이를 “표현 드리프트”라 명명하고, LLM에서 보고된 유사 현상을 VLM에 적용한다. 저자는 VLM의 복합 구조(비전 인코더 → 토큰 연결 → 언어 모델) 때문에 내부 불안정성을 진단하기가 더 복잡하다고 지적한다.
평가 프레임워크는 네 가지 핵심 지표를 포함한다. 첫째, 임베딩 안정성은 원본 이미지와 변형 이미지 사이의 코사인 거리와 L2 노름을 다섯 개의 위치(컨텍스트/답변, 오픈형/다중선택형 프롬프트)에서 측정한다. 둘째, 구조적 매끄러움은 시각 토큰을 그래프의 노드로 보고 인접 토큰 간 차이의 제곱합인 Dirichlet Energy 변화를 계산한다. 셋째, 드리프트 대비 컨트롤 드리프트는 동일 이미지 간 변형에 의한 거리와 무작위 이미지 간 거리의 차이를 Cohen’s d로 정량화한다. 넷째, 드리프트‑투‑프라이어는 POPE 벤치마크에서 빈 이미지에 대한 “Yes” 확률을 측정해, 변형이 시각 정보보다 언어 사전 확률에 의존하도록 만드는지를 평가한다.
실험은 Qwen‑3‑VL 및 LLaVA 계열 모델을 SEED‑Bench(시각 추론), MMMU(다중 이미지 추론), POPE(환각 검증)에 적용한다. 변형 종류는 번역·패딩·크롭·스케일·회전·텍스트 오버레이(의미 있는 텍스트, 무작위 문자열, 빈 박스) 등 여섯 가지이며, 각 변형은 다양한 파라미터 범위로 샘플링한다.
주요 결과는 다음과 같다. (1) 출력과 내부 표현의 불일치: 평균 37.6%의 이미지가 최소 하나의 변형에 의해 정답이 바뀌지만, 정답이 유지되는 경우에도 임베딩 드리프트가 이미지 간 변동 수준에 근접한다. 특히 텍스트 오버레이는 19.2%의 인스턴스 플립률을 보이며, 드리프트 크기가 가장 크다. (2) 모델 규모와 견고성의 비례 부재: 파라미터 수가 늘어날수록 정확도는 상승하지만, 임베딩 드리프트와 스펙트럼 민감도는 동일하거나 더 악화된다. 이는 더 날카로운 결정 경계가 작은 변형에도 쉽게 깨지는 현상을 의미한다. (3) 과제별 영향 차이: 추론 과제에서는 변형이 저수준(코스)와 고수준(디테일) 시각 단서를 결합하는 방식을 방해해 오류가 무작위적으로 증가한다. 반면 환각 검증(POPE)에서는 변형이 모델을 보다 보수적으로 만들며, 거짓 양성 비율이 감소한다. 이는 모델이 시각 증거를 포기하고 언어 사전 확률에 의존하게 되는 현상과 연결된다.
또한 스펙트럼 분석 결과, 회전·스케일링 등 기하학적 변형은 주파수 크기 자체는 유지하면서 위상(phase)을 교란한다. 위상 교란은 토큰 간 구조적 일관성을 깨뜨려 Dirichlet Energy가 상승함을 보여준다. 텍스트 오버레이는 고주파 노이즈를 추가해 전체 스펙트럼을 왜곡하고, 내부 토큰 간 변동을 급격히 증가시킨다.
결론적으로, 논문은 VLM 견고성 평가에 “표현‑레벨” 지표를 반드시 포함해야 함을 주장한다. 출력이 동일하더라도 내부 표현이 크게 이동하면 모델은 새로운 입력에 대해 예측이 급격히 바뀔 위험이 있다. 제안된 프레임워크는 이러한 숨은 불안정을 정량화하고, 모델 설계·학습 단계에서 보다 견고한 멀티모달 처리 방식을 탐색하는 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기