전역 임베딩 기하만으로는 시각 표현의 조합 능력을 설명할 수 없다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

전역 임베딩의 등방성·참여비와 같은 기하학적 지표는 21가지 비전 인코더의 구성 요소 결합 능력과 거의 상관이 없으며, 입력‑출력 Jacobian의 유효 차원(Effective Rank) 등 기능적 민감도는 높은 상관성을 보인다. 이는 기존 학습 목표가 전역 분포만을 규제하고 로컬 매핑을 남겨두기 때문에 발생한다는 분석을 제공한다.

상세 분석

본 논문은 “전역 기하학이 좋은 표현을 만든다”는 전통적 가정을 정밀히 검증한다. 21개의 비전 인코더(Contrastive, Variance‑decorrelation, Clustering, Self‑distillation, Masked modeling, Vision‑language, Supervised)를 대상으로, 전역 참여비(G.PR), 전역·지역 등방성(G.Iso, L.Iso) 등 기존의 정적 기하학적 메트릭과 합성 바인딩(속성‑위치 결합) 테스트 성능을 상관 분석하였다. 결과는 r≈0~0.18 수준으로 통계적으로 유의미하지 않으며, 전역 기하학이 구성 요소의 결합 구조를 포착하지 못함을 보여준다. 반면, 입력‑출력 Jacobian의 유효 랭크(Jacobian Effective Rank, JER)를 이용한 기능적 민감도는 r≈0.65, p≈0.001로 강한 양의 상관을 보이며, 동일 모델들의 구조적 구분(Disc.) 능력과도 높은 연관성을 가진다.

논문은 이러한 차이가 학습 목표의 설계에 기인함을 이론적으로 설명한다. 대다수 자기지도 및 대조 학습 손실은 임베딩 간 거리·정렬(contrastive alignment) 혹은 분산·공분산 정규화(variance‑decorrelation)를 통해 전역 분포를 직접 최적화한다. 그러나 입력 변동에 대한 로컬 민감도, 즉 미분적 매핑 특성은 손실 함수에 명시적으로 포함되지 않아 자유롭게 학습된다. 결과적으로 동일한 전역 등방성을 가진 모델이라도 Jacobian 스펙트럼이 다르면 구성 요소 결합 능력이 크게 차이난다.

추가 실험으로 k‑NN, 로컬 PCA 등 전형적인 “기하학 기반 읽기” 방법을 적용했지만, 이들 역시 바인딩 정확도를 향상시키지 못하고 오히려 성능을 저하시켰다. 이는 조합 구조가 임베딩 공간의 특정 방향이나 근접 이웃에 집중되지 않으며, 전역 기하학만으로는 접근 불가능함을 의미한다.

결론적으로, 전역 임베딩 기하학은 “무엇이 존재하는가”를 포착하지만 “어떻게 결합되는가”를 반영하지 못한다. 기능적 민감도, 특히 Jacobian의 유효 차원은 로컬 입력‑출력 관계를 정량화함으로써 조합적 표현 능력을 평가하는 중요한 보완 축으로 제안된다.

전역 임베딩 기하만으로는 시각 표현의 조합 능력을 설명할 수 없다

초록

상세 분석

댓글 및 학술 토론

의견 남기기