MPI‑FAUN: 대규모 비음수 행렬 분해를 위한 고성능 MPI 프레임워크
** 본 논문은 비음수 행렬 분해(NMF)를 대규모 밀집·희소 데이터에 적용하기 위해 MPI 기반의 병렬 프레임워크인 MPI‑FAUN을 제안한다. 교대 업데이트 방식의 NMF 알고리즘을 공통적인 행렬 곱과 비음수 최소제곱(NLS) 서브문제로 추상화하고, 데이터와 인자 행렬을 분산 메모리에 유지하면서 α‑β‑γ 통신 모델을 이용해 통신 비용을 이론적으로 최소화한다. 구현은 MU, HALS, ABPP 등 여러 NMF 변형을 지원하며, 1 500…
저자: Ramakrishnan Kannan, Grey Ballard, Haesun Park
**
본 논문은 비음수 행렬 분해(NMF)를 대규모 데이터에 적용하기 위한 고성능 병렬 프레임워크인 MPI‑FAUN을 제안한다. NMF는 입력 행렬 A∈ℝ^{m×n}_+를 두 개의 비음수 저차원 행렬 W∈ℝ^{m×k}_+, H∈ℝ^{k×n}_+의 곱으로 근사하는 문제이며, 텍스트 토픽 모델링, 비디오 배경 분리, 소셜 네트워크 커뮤니티 탐지 등 다양한 분야에서 활용된다. 전통적인 NMF 알고리즘은 교대로 W와 H를 업데이트하는 구조를 가지며, 각 서브문제는 비음수 최소제곱(NLS) 형태가 된다. 그러나 m·n이 수백만~수십억 규모가 되는 현대 빅데이터 환경에서는 메모리와 통신 비용이 병목이 된다.
### 1. 문제 정의 및 기존 연구
저자들은 NMF를 다음과 같이 정의한다.
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기