결측 데이터 복원을 위한 가법적 비음수 행렬 분해

초록

본 논문은 비음수 행렬 분해(NMF)를 새로운 관점에서 해석하여, 테스트 데이터의 결측 속성을 복원하는 방법을 제시한다. 결측값과 NMF 요인을 동시에 최적화하는 공동 최적화 프레임워크를 설계하고, 알고리즘의 단조 수렴성을 증명하였다. 실험을 통해 결측값이 존재하는 상황에서도 높은 분류 정확도를 달성함을 보였다.

상세 요약

본 연구는 기존 NMF가 데이터의 양의 구조를 파악하는 데 유용하다는 점에 착안하여, 이를 결측 데이터 복원 문제에 직접 적용한다는 점에서 혁신적이다. 전통적인 NMF는 고정된 입력 행렬 X를 두 개의 비음수 행렬 W와 H로 분해하는데, 여기서 X의 일부 원소가 관측되지 않은 경우 일반적인 비용 함수인 ‖X‑WH‖²_F는 정의되지 않는다. 저자들은 이를 해결하기 위해 관측된 원소와 결측된 원소를 구분하는 마스크 행렬 M을 도입하고, 결측값을 변수로 취급하여 동시에 최적화한다. 구체적으로, 목표 함수는 ‖M⊙(X‑WH)‖²_F + λ‖(1‑M)⊙(X̂‑WH)‖²_F 형태로 구성되며, 여기서 X̂는 현재 추정된 결측값을 의미한다. λ는 결측값에 부여하는 가중치로, 모델이 관측된 데이터에 과도하게 의존하지 않도록 조절한다.

알고리즘은 교번 최적화(Alternating Optimization) 방식을 사용한다. 먼저 고정된 W와 H에 대해 결측값 X̂를 업데이트하고, 그 다음 W와 H를 각각 비음수 제약 하에 업데이트한다. 각 단계는 닫힌 형태의 업데이트 규칙을 갖는데, 이는 기존 NMF에서 사용되는 멀티플리케이티브 업데이트 규칙을 변형한 것이다. 특히, 결측값 업데이트는 선형 시스템을 푸는 형태로, 계산 복잡도가 낮아 실시간 응용에도 적합하다. 저자들은 모든 업데이트 단계가 목표 함수를 비감소하게 만든다는 수학적 증명을 제공한다. 이는 라그랑주 승수와 KKT 조건을 활용한 엄밀한 단조 수렴 증명으로, 알고리즘이 전역 최소값에 수렴한다는 보장은 없지만, 지역 최소점에 안정적으로 도달함을 보장한다.

실험에서는 여러 공개 데이터셋(예: MNIST, ORL 얼굴 데이터, UCI 레스토랑 데이터)을 이용해 결측 비율을 10%에서 50%까지 변화시키며 성능을 평가하였다. 복원된 결측값을 사용해 k-NN, SVM, Random Forest 등 다양한 분류기를 학습시켰을 때, 기존의 평균 대체, k-NN 대체, EM 기반 대체 방법보다 일관되게 높은 정확도를 기록했다. 특히, 결측 비율이 30% 이상일 때도 510% 수준의 정확도 향상을 보였으며, 이는 결측값 자체를 추정하면서 동시에 데이터의 잠재 구조를 학습하는 공동 최적화의 장점을 입증한다. 또한, 알고리즘의 수렴 속도는 평균 5070번의 반복으로 충분했으며, 각 반복당 연산량은 O(nkr) (n: 샘플 수, k: 특성 수, r: 차원) 수준으로 효율적이었다.

이 논문의 주요 기여는 (1) 결측 데이터 복원을 NMF와 통합한 새로운 모델링 프레임워크, (2) 비음수 제약을 유지하면서 결측값을 직접 최적화하는 효율적인 업데이트 규칙, (3) 단조 수렴성을 이론적으로 증명한 알고리즘, (4) 다양한 실험을 통해 실제 분류 성능 향상을 입증한 점이다. 다만, 모델이 차원 r을 사전에 지정해야 하는 점과, 매우 높은 결측 비율(>70%)에서는 복원 품질이 급격히 저하되는 한계가 있다. 향후 연구에서는 자동 차원 선택 메커니즘과 정규화 기법을 도입해 이러한 약점을 보완할 수 있을 것으로 기대된다.

초록

상세 요약

📜 논문 원문 (영문)