랜덤화된 CP 텐서 분해

본 논문은 다차원(다중모드) 데이터를 효율적으로 분석하기 위한 차원 축소 기법인 CP(캐노디컴/파라팩) 텐서 분해에 무작위화(randomization) 접근법을 적용한 새로운 알고리즘을 제시한다. 텐서 데이터는 차원이 급격히 증가함에 따라 전통적인 행렬 기반 SVD나 PCA와 같은 방법으로는 구조적 정보를 손실하게 되며, CP 분해는 이러한 다중모드 구조를 보존하면서 저차원 표현을 제공한다. 그러나 텐서의 차원이 커질수록 CP 분해를 위한 교대 최소제곱(ALS)이나 블록 코디네이트 디센트(BCD)와 같은 반복 최적화는 메모리와 연산량 측면에서 큰 병목이 된다. 이를 해결하기 위해 저자들은 두 단계로 구성된 랜덤화된 CP 알고리즘을 설계하였다. 첫 번째 단계는 각 텐서 모드에 대해 무작위 테스트 행렬 Ωₙ(가우시안 혹은 준무작위 시퀀스)과 파워 이터레이션(q)을 결합해 스케치 Yₙ = (X⁽ⁿ⁾X⁽ⁿ⁾ᵀ)ᵠ·X⁽ⁿ⁾·Ωₙ 를 만든 뒤, QR 분해를 통해 정규 직교 기저 Qₙ ∈ ℝ^{Iₙ×k}를 얻는다. 여기서 k는 목표 차원이며, 오버샘플링 파라미터 p를 추가해 l = k + p개의 열을 사용함으로써 근사 정확도를 향상시킨다. Qₙ를 이용해 텐서의 각 모드에 QₙQₙᵀ를 곱하면, 원본 텐서 X는 압축된 텐서 B ≈ X ×₁ Q₁ᵀ ×₂ … ×ₙ Qₙᵀ 로 근사된다. B는 차원이 k×…×k 로 크게 축소되어, 이후 단계에서 연산 비용이 급격히 감소한다. 두 번째 단계에서는 압축된 텐서 B에 대해 기존 CP 최적화 기법을 적용한다. 저자는 ALS와 BCD 두 가지 방법을 모두 구현했으며, 각각의 알고리즘은 압축된 텐서에 대해 동일한 목표 랭크 R (R ≤ k) 로 인자 행렬 ˜A, ˜B, ˜C 를 추정한다. 압축된 텐서에 대한 연산 복잡도는 O(k³) 수준으로, 원본 텐서에 직접 적용했을 때의 O(I·J·K·R) 대비 수십 배 빠른 수행이 가능하다. 복원 단계에서는 압축 단계에서 얻은 Qₙ 행렬을 사용해 ˜A, ˜B, ˜C 를 원본 차원으로 투사한다: A ≈ Q₁·˜A, B ≈ Q₂·˜B, C ≈ Q₃·˜C. 이렇게 하면 원본 텐서 X에 대한 CP 근사 X̂ =

랜덤화된 CP 텐서 분해

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기