텐서 네트워크 합성: 특징 융합을 통한 효율적 이미지 분류

본 논문은 텐서 네트워크(TN)의 합연산에 관한 최초의 체계적인 연구로, 동일한 토폴로지를 가진 TN들을 어떻게 결합하여 새로운 TN을 만들 수 있는지를 탐구한다. 서론에서는 텐서와 텐서 분해(TD)의 중요성을 강조하고, 특히 Tucker 분해(TKD)를 일반적인 텐서 네트워크 형태로 표현함으로써 “특징 지역화(feature locality)”라는 개념을 도입한다. 기존 연구는 TN을 독립적인 객체로 다루는 경우가 대부분이었으며, 여러 텐서 간의 통합적 특징 추출 방법은 부재했다. 본 연구는 이러한 공백을 메우기 위해 “TN 합”이라는 연산을 정의한다. 먼저 블록 텐서와 그 슈퍼대각선(superdiagonal)의 개념을 정의하고, **Conjecture 1**을 제시한다. 이 가설에 따르면, 두 텐서 X와 Y가 동일한 토폴로지를 가질 경우, 각 코어 텐서를 슈퍼대각선에 배치한 블록 코어와 물리 모드에 대해 차원을 유지한 채로 결합하면, 새로운 텐서 Z = X + Y를 동일 토폴로지의 TN으로 표현할 수 있다. 가설의 타당성을 검증하기 위해 두 가지 명제가 제시된다. **Proposition 1**은 2차원 행렬 체인(즉, 순차적으로 연결된 매트릭스)에서 블록 대각선 형태로 코어를 결합하면, 전체 연산이 두 행렬의 합과 동일함을 증명한다. 여기서는 각 매트릭스를 블록 대각선으로 쌓고, 전체 체인을 다시 곱함으로써 합을 얻는 과정을 상세히 전개한다. **Proposition 2**는 보다 일반적인 3차원 텐서, 즉 TKD 형식의 텐서에 대해 가설을 확장한다. 논문은 먼저 각 텐서의 1‑mode unfolding을 이용해 행렬 형태로 변환하고, 앞서 증명한 Proposition 1을 적용한다. 블록 코어와 블록 팩터 행렬을 적절히 배치함으로써, 새로운 TN의 1‑mode 전개가 원래 두 텐서 전개의 블록 합과 일치함을 보인다. 이 과정에서 Kronecker 곱, 전치 연산, 그리고 희소 행렬 구조를 활용해 수식적 일관성을 확보한다. 실험에서는 ETH‑80 이미지 데이터셋을 사용한다. 각 이미지는 32×32×3 텐서로 변환되고, TKD를 수행해 코어 차원을 3으로 고정한다. 각 이미지의 팩터 행렬(A_m, B_m, C_m)을 코어 노름 ‖G_m‖의 1/3 제곱으로 스케일링한 뒤, 모든 팩터를 연결(concatenate)한다. 이어서 SVD를 적용해 공통 팩터(A_c, B_c, C_c)를 추출하고, 각 이미지에 대해 이 공통 팩터를 역프로젝션하여 새로운 코어 ◦G_m을 얻는다. ◦G_m을 벡터화한 뒤 Gaussian 커널 SVM에 입력하여 분류를 수행한다. 80 % 학습 비율에서 20번 반복 평균 정확도는 92.3 %에 달했으며, 특히 학습 데이터가 10 % 수준으로 감소했을 때도 기존 SVM(직접 이미지 벡터 입력)이나 TKD‑CONCAT(전체 데이터를 4차원 텐서로 결합 후 TKD)보다 월등히 높은 정확도를 보였다. 혼동 행렬을 살펴보면 대부분의 클래스에서 90 % 이상의 정확도를 기록했으며, “Cow”, “Dog”, “Horse” 클래스가 다소 혼동되는 정도만 관찰되었다. 결론에서는 제안된 TN 합연산이 특징 융합을 자연스럽게 구현하며, 적은 학습 샘플에서도 강건한 분류 성능을 제공한다는 점을 강조한다. 현재는 동일 토폴로지와 동일 물리 모드 차원을 전제로 하지만, 향후 연구에서는 비동형 토폴로지 변환, 차원 불일치 텐서의 합, 그리고 시계열·그래프 데이터 등 다양한 응용 분야로 확장할 계획임을 밝힌다.

텐서 네트워크 합성: 특징 융합을 통한 효율적 이미지 분류

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기