랜덤화된 CP 텐서 분해
본 논문은 고차원 텐서의 저차원 근사화를 위해 무작위 프로젝션과 파워 이터레이션을 결합한 새로운 CP(캐노디컴/파라팩) 분해 알고리즘을 제안한다. 압축된 텐서를 먼저 구축한 뒤, ALS 또는 BCD 방식으로 CP 분해를 수행하고, 최종적으로 원본 텐서의 인자 행렬을 복원한다. 실험 결과, 기존 결정론적 방법에 비해 연산 시간이 크게 단축되면서도 근사 정확도는 거의 손실되지 않음을 보였다.
저자: N. Benjamin Erichson, Krithika Manohar, Steven L. Brunton
본 논문은 다차원(다중모드) 데이터를 효율적으로 분석하기 위한 차원 축소 기법인 CP(캐노디컴/파라팩) 텐서 분해에 무작위화(randomization) 접근법을 적용한 새로운 알고리즘을 제시한다. 텐서 데이터는 차원이 급격히 증가함에 따라 전통적인 행렬 기반 SVD나 PCA와 같은 방법으로는 구조적 정보를 손실하게 되며, CP 분해는 이러한 다중모드 구조를 보존하면서 저차원 표현을 제공한다. 그러나 텐서의 차원이 커질수록 CP 분해를 위한 교대 최소제곱(ALS)이나 블록 코디네이트 디센트(BCD)와 같은 반복 최적화는 메모리와 연산량 측면에서 큰 병목이 된다.
이를 해결하기 위해 저자들은 두 단계로 구성된 랜덤화된 CP 알고리즘을 설계하였다. 첫 번째 단계는 각 텐서 모드에 대해 무작위 테스트 행렬 Ωₙ(가우시안 혹은 준무작위 시퀀스)과 파워 이터레이션(q)을 결합해 스케치 Yₙ = (X⁽ⁿ⁾X⁽ⁿ⁾ᵀ)ᵠ·X⁽ⁿ⁾·Ωₙ 를 만든 뒤, QR 분해를 통해 정규 직교 기저 Qₙ ∈ ℝ^{Iₙ×k}를 얻는다. 여기서 k는 목표 차원이며, 오버샘플링 파라미터 p를 추가해 l = k + p개의 열을 사용함으로써 근사 정확도를 향상시킨다. Qₙ를 이용해 텐서의 각 모드에 QₙQₙᵀ를 곱하면, 원본 텐서 X는 압축된 텐서 B ≈ X ×₁ Q₁ᵀ ×₂ … ×ₙ Qₙᵀ 로 근사된다. B는 차원이 k×…×k 로 크게 축소되어, 이후 단계에서 연산 비용이 급격히 감소한다.
두 번째 단계에서는 압축된 텐서 B에 대해 기존 CP 최적화 기법을 적용한다. 저자는 ALS와 BCD 두 가지 방법을 모두 구현했으며, 각각의 알고리즘은 압축된 텐서에 대해 동일한 목표 랭크 R (R ≤ k) 로 인자 행렬 ˜A, ˜B, ˜C 를 추정한다. 압축된 텐서에 대한 연산 복잡도는 O(k³) 수준으로, 원본 텐서에 직접 적용했을 때의 O(I·J·K·R) 대비 수십 배 빠른 수행이 가능하다.
복원 단계에서는 압축 단계에서 얻은 Qₙ 행렬을 사용해 ˜A, ˜B, ˜C 를 원본 차원으로 투사한다: A ≈ Q₁·˜A, B ≈ Q₂·˜B, C ≈ Q₃·˜C. 이렇게 하면 원본 텐서 X에 대한 CP 근사 X̂ =
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기