깊은 시각 모델을 인간 유사성 판단에 맞추는 선형 변환
초록
본 연구는 사전 학습된 VGG16의 4096차원 이미지 임베딩을 선형 변환하여 인간이 제시하는 새와 이미지 간 유사성 판단을 예측한다. 차원 축소와 다양한 형태의 가중치 행렬(대각, 대칭, 무제한)을 적용해 모델을 학습시킨 결과, 원본 임베딩만 사용할 때의 67.8% 정확도에서 최대 90.3%까지 상승시켰으며, 인간 유사성 판단이 비대칭적이라는 기존 심리학적 주장도 실험적으로 확인하였다.
상세 분석
이 논문은 인간의 시각적 유사성 판단을 정량화하기 위해 기존 딥러닝 비전 모델의 내부 표현을 어떻게 재구성할 수 있는지를 체계적으로 탐구한다. 먼저, 사전 학습된 VGG16의 penultimate layer에서 추출한 4096차원 임베딩을 그대로 사용한 베이스라인 모델은 인간이 제시한 삼중항 선택(triplet inequality constraint, TIC) 과제에서 67.8%의 정확도를 보였다. 저자들은 이 임베딩이 고차원이며 많은 중복 정보를 포함하고 있다고 가정하고, 차원 축소를 위해 주성분 분석(PCA)으로 상위 k개의 주성분을 선택한다. 여기서 k는 2부터 4096까지 다양하게 설정해 모델 복잡도와 일반화 성능 사이의 trade‑off를 조사한다.
핵심은 임베딩 사이의 유사성을 계산하는 행렬 W의 제약조건을 바꾸는 것이다. 네 가지 변형을 실험했는데, (1) Identity – W=I 로 원본 공간 그대로 사용, (2) Diagonal – 비음수 대각원소만 허용해 각 차원의 스케일을 조정, (3) Symmetric – W=VᵀV 형태로 대칭 행렬을 학습해 임베딩에 일반적인 선형 변환을 적용, (4) Unconstrained – W를 완전 자유롭게 학습한다. 특히 Symmetric와 Unconstrained는 기존 연구에서 제시된 ‘dilation’(단순 스케일링)보다 표현력이 풍부하다.
학습은 인간의 선택 확률을 로지스틱 함수로 모델링하고, 로그우도 최대화를 목표로 SGD와 Nesterov 모멘텀을 사용했다. 5‑fold 교차검증을 통해 훈련·검증 정확도를 추적했으며, 과적합을 방지하기 위해 검증 정확도가 일정 기간 향상되지 않으면 학습을 중단했다. 결과는 다음과 같다. 차원 수 k가 증가할수록 모든 변형에서 정확도가 상승했으며, 특히 Symmetric와 Unconstrained 모델은 k=4096일 때 검증 정확도가 89‑90%에 달했다. Diagonal 변형도 비음수 제약을 두었음에도 baseline 대비 크게 개선되었고, 대칭성 제한을 풀어 비대칭 유사성을 허용했을 때(즉, 붉은색 곡선) 추가적인 성능 향상이 관찰되었다. 이는 인간이 ‘X가 Y와 얼마나 유사한가’와 ‘Y가 X와 얼마나 유사한가’를 다르게 평가한다는 심리학적 사실을 모델 수준에서 재현한 것이다.
또한, 모델을 이미지 수준에서 일반화시키기 위해 이미지 자체를 hold‑out하고 동일한 학습·검증 절차를 수행했을 때도 성능 저하가 있었지만 순위는 유지되었다. 이는 학습된 선형 변환이 새로운 이미지에도 일정 수준의 예측력을 제공함을 의미한다.
전체적으로 이 연구는 (1) 고차원 딥 임베딩을 선형 변환만으로도 인간 심리학적 임베딩에 근접하게 만들 수 있음을, (2) 변환의 자유도를 확대하면 과적합 위험이 크게 증가하지 않으며 오히려 성능을 끌어올린다는 점을, (3) 인간 유사성 판단의 비대칭성을 정량적으로 모델링할 수 있음을 입증한다. 제한점으로는 선형 변환에만 국한했으며, 비선형 변환이나 신경생리학적 데이터와의 직접적인 매핑은 다루지 않은 점이다. 향후 연구에서는 비선형 매핑, 뇌 영상 데이터와의 연계, 그리고 다른 도메인(예: 사물, 풍경)으로의 확장이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기