대형 비전‑언어 모델의 지각 불변성 탐구
초록
본 연구는 155개의 최신 비전‑언어 모델(VLM)을 236개의 실험에 적용해 색상, 크기, 형태 불변성이라는 세 가지 지각 불변성 영역을 평가한다. 색상·크기 불변성에서는 평균 정확도가 0.58 수준으로 낮은 반면, 형태 불변성에서는 0.72로 가장 높은 성과를 보였다. 모델 규모가 클수록 모든 영역에서 성능이 향상되는 로그‑선형 스케일링 법칙이 확인되었으며, 아이템 반응 이론(IRT) 분석을 통해 형태 과제가 가장 낮은 난이도와 중간 정도의 변별력을, 색상 과제가 높은 변별력과 중간 난이도를, 크기 과제가 가장 넓은 난이도 분포와 중간 변별력을 갖는다는 구조적 차이를 밝혔다.
상세 분석
이 논문은 인간 시각 시스템이 조명, 거리, 시점 변화에도 물체의 색·크기·형태를 안정적으로 인식하는 ‘지각 불변성(perceptual constancy)’을 인공지능, 특히 비전‑언어 모델(VLM)에서 얼마나 재현하고 있는지를 체계적으로 측정한다. 연구진은 기존 인지심리학 실험을 변형한 이미지·비디오 기반 과제 236개를 포함하는 ConstancyBench 데이터를 구축했으며, 여기에는 실험실 사진, 고전 인지심리 실험 이미지, 영화·애니메이션, 손그림, AI‑생성 3D 도형 등 6가지 출처가 혼합돼 있다. 각 과제는 색상, 크기, 형태 불변성 중 하나에 초점을 맞추어 모델이 “실제 물체 속성”을 추론하도록 설계되었다.
155개의 VLM은 GPT‑4o, Gemini 1.5 Pro와 같은 대형 모델부터 경량 오픈소스 모델까지 다양했으며, 모두 zero‑shot 설정에서 텍스트 답변과 설명을 생성하도록 했다. 결과는 세 영역에서 뚜렷한 성능 차이를 보였다. 형태 불변성 과제는 평균 정확도 0.723±0.170으로 가장 높은 점수를 기록했으며, 이는 모델이 기하학적 구조를 파악하는 데 상대적으로 쉬운 ‘단순 기하학적 shortcut’을 활용할 수 있음을 시사한다. 반면 색상·크기 불변성은 각각 0.588±0.185, 0.584±0.123으로 거의 동등했으며, 특히 색상 불변성은 고차원 광도 정보를 분리해야 하는 어려움 때문에 낮은 성능을 보였다.
통계적으로는 일원배치분산분석(ANOVA)에서 영역 효과가 강하게 나타났으며(F(2,451)=36.49, p≈2e‑15, η²=0.139), 사후 Tukey HSD 검정은 형태가 색상·크기보다 유의하게 우수함(p<0.001, d≈0.8)임을 확인했다. 모델 규모와 성능 사이의 관계는 로그‑선형 회귀로 설명되었으며, 전체 R²=0.2804(전체)와 각 영역별 R²=0.0973~0.3080을 기록했다. 특히 크기 불변성에서 가장 큰 스케일링 효과(R²=0.3080, β=0.1301)가 관찰돼, 공간·기하학적 추론이 모델 용량에 민감함을 보여준다.
아이템 반응 이론(2PL IRT) 분석에서는 각 과제의 난이도(b)와 변별력(a)를 추정했다. 형태 과제는 평균 난이도 -1.27(가장 쉬움)과 변별력 1.33을 보였으며, 색상 과제는 변별력 평균 2.25(가장 높음)와 난이도 -0.58을, 크기 과제는 변별력 1.59와 난이도 -0.72로 가장 넓은 분포를 나타냈다. 이는 색상 과제가 모델 간 차이를 가장 잘 드러내지만, 성공에 필요한 능력 수준은 중간이며, 크기 과제는 다양한 난이도로 모델의 공간 추론 능력을 폭넓게 테스트한다는 의미다.
전체적으로, 대형 VLM이 인간 수준에 근접한 형태 인식 능력을 보이지만, 색상·크기 불변성에서는 아직 한계가 있다. 이는 현재 멀티모달 학습이 고차원 광학·깊이 정보를 충분히 통합하지 못하고, 주로 텍스트-이미지 매칭에 최적화돼 있기 때문으로 해석된다. 논문은 향후 조명·깊이 인코딩, 3D 세계 모델링, 그리고 멀티모달 사전학습 목표의 재설계가 필요함을 제언한다.
댓글 및 학술 토론
Loading comments...
의견 남기기