시각언어모델의 표현 오류를 풀어내는 기하학적 통찰
초록
본 논문은 최신 오픈소스 비전‑언어 모델(Qwen, InternVL, Gemma)에서 발생하는 색·형태 결합 오류를 내부 표현 공간의 기하학적 구조로 설명한다. 저자는 두 가지 방법(감독형 프로브와 중심점 기반)으로 개념 벡터를 추출하고, 이를 이용한 활성화 스티어링 실험을 통해 벡터가 실제 모델 행동을 조절함을 입증한다. 개념 벡터 간 겹침 정도가 오류 발생률과 강하게 상관함을 보여, 모델 설계 시 표현 간 독립성을 확보해야 함을 시사한다.
상세 분석
논문은 먼저 비전‑언어 모델이 이미지 토큰을 LLM 임베딩 공간에 투사하는 구조적 특성을 강조한다. 이 과정에서 다중 객체가 공유하는 고차원 벡터 공간에 압축되면서 서로 다른 시각 개념(색, 형태, 위치 등)이 서로 겹치는 ‘기하학적 간섭’이 발생한다는 가설을 세운다. 이를 검증하기 위해 두 가지 개념 벡터 추출 방법을 제시한다. 첫 번째는 감독형 프로브로, 색·형태 라벨이 부착된 합성 이미지 집합에 대해 선형 분류기를 학습하고, 학습된 가중치를 정규화해 개념 방향을 얻는다. 이 방식은 라벨에 최적화된 초평면을 찾지만, 데이터셋 특수성에 의한 과적합 위험이 있다. 두 번째는 중심점 기반 방법으로, 동일 개념이 포함된 다수의 토큰 임베딩 평균을 구하고 전역 평균을 정규 직교화해 순수 개념 성분을 추출한다. 이 방법은 데이터 분포 자체를 반영하므로 보다 일반화된 개념 벡터를 제공한다.
추가로 저자는 PCA‑프로브라는 하이브리드 기법을 도입한다. 색과 형태라는 두 축을 갖는 N²개의 조합 개념 벡터에 대해 주성분 분석을 수행하고, 각 축에 해당하는 2N‑2개의 주성분만 보존한다. 이는 개념 간 독립성을 강제하는 기하학적 정규화 역할을 하여, 프로브가 라벨 의존적 편향을 최소화하도록 만든다.
가장 핵심적인 실험은 ‘활성화 스티어링’이다. 추출된 개념 벡터 ˆv_A와 ˆv_B를 이용해 토큰 h_t를 h′_t = h_t − (h_t·ˆv_A)ˆv_A + (h_t·ˆv_A)ˆv_B 로 변환한다. 이는 A 개념 성분을 제거하고 B 개념 성분을 동일 크기로 삽입하는 선형 변환이며, 각 토큰의 원래 강도 비율을 보존한다. 스티어링 성공률을 색 변환(예: 빨강→파랑) 과제에 적용해 측정했으며, 중심점 기반 벡터가 프로브 기반보다 평균 20% 이상 높은 성공률을 보였다. 특히 Qwen 모델에서는 84.7%의 높은 성공률을 기록했으며, 이는 개념 벡터가 실제 모델 내부 계산에 직접적인 인과관계를 갖는다는 강력한 증거다.
또한 개념 벡터 간 코사인 유사도가 높은 쌍일수록 색·형태 결합 오류가 빈번히 발생한다는 정량적 상관관계를 보고한다. 이는 ‘표현 간 겹침’이 모델이 다중 객체를 구분하지 못하고 ‘illusory conjunction’ 현상을 일으키는 메커니즘임을 뒷받침한다. 저자는 이를 ‘일반화의 저주(Curse of Generalization)’라 명명하고, 풍부한 조합 가능성을 제공하는 동시에 고차원 압축으로 인한 간섭 위험을 내포한다는 이론적 해석을 제시한다.
마지막으로 논문은 인간 시각에서의 ‘바인딩 문제’와의 유사성을 강조한다. 인간은 주의 메커니즘을 통해 객체를 순차적으로 처리하지만, 현재 VLM은 단일 패스(feed‑forward) 구조로 인해 동일한 압축 문제에 직면한다는 점을 지적한다. 따라서 향후 모델 설계에서는 시계열적 주의 메커니즘 도입, 혹은 다중 토큰 스트림을 통한 객체별 독립 표현 확보가 필요하다는 실용적 제언을 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기