딥 텐서 인코딩으로 이미지 검색 정확도 향상

**1. 연구 배경 및 동기** 딥러닝 기반 이미지 검색에서는 일반적으로 마지막 합성곱 층에서 추출한 피처 맵을 1차원 벡터로 플래튼한 뒤, 전통적인 인코딩 기법(Fisher Vector, Bag‑of‑Words, 희소 코딩 등)을 적용한다. 그러나 이러한 접근은 피처 텐서가 갖는 고차원 다중선형 구조—공간(높이·폭)과 채널 차원의 상호작용—를 무시한다. 텐서 구조를 보존하지 않으면 정보 손실이 발생하고, 특히 텍스처와 같이 미세한 패턴을 구분해야 하는 도메인에서는 검색 정확도가 저하될 위험이 있다. **2. 제안 방법** 본 논문은 다섯 가지 인코딩 방식을 비교한다. (a) Fisher Encoding: GMM 기반 확률 모델을 학습하고, 평균·공분산에 대한 로그우도 미분을 이용해 2KD 차원의 Fisher 벡터를 만든다. (b) Sparse Coding: k‑SVD와 OMP를 이용해 과잉 사전 D와 희소 가중치 ϕ를 학습한다. (c) t‑SVD: 텐서‑곱(t‑product) 정의에 따라 텐서를 주파수 영역에서 순환 행렬로 변환하고, FFT 기반 빠른 SVD를 수행해 직교 사전 U를 얻는다. (d) Low‑Rank + Sparse: t‑SVD에서 상위 r개의 특이값을 사용해 저‑랭크 L을 재구성하고, 잔차를 희소 텐서 P로 정의한다. (e) Multilinear PCA (mPCA): Tucker 분해 형태로 각 모드별 직교 투사 행렬 A⁽ⁿ⁾를 학습해 전체 텐서의 분산을 최대화한다. **3. 실험 설정** 데이터셋은 Describable Textures Dataset(DTD)이며, 5,640장의 텍스처 이미지가 47개의 인간 인지 기반 속성으로 라벨링되어 있다. 사전 학습된 VGG‑M 모델의 마지막 컨볼루션 레이어(H×W×D)를 피처로 사용하고, 각 이미지에 대해 N=H·W개의 로컬 피처 t_i∈ℝ^D를 추출한다. Fisher Vector와 Sparse Coding은 로컬 피처를 1D 벡터 집합으로 플래튼하고, t‑SVD와 mPCA는 2D 피처 맵(

딥 텐서 인코딩으로 이미지 검색 정확도 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기