비지도 역전파 기반 결측값 보간
본 논문은 관측된 데이터만을 이용해 다층 퍼셉트론(MLP)을 학습시키는 비지도 역전파(Unsupervised Backpropagation, UBP) 기법을 제안한다. UBP는 입력으로 잠재 벡터 V를 사용하고, 가중치와 V를 동시에 최적화함으로써 고차원 데이터 X의 매니폴드에 맞는 저차원 표현을 학습한다. 24개의 데이터셋에 대해 10%~90%의 결측률을 인위적으로 제거한 뒤, UBP는 기존 협업 필터링, 행렬 분해, 비선형 PCA 등 5가지 …
저자: Michael S. Gashler, Michael R. Smith, Richard Morris
본 논문은 실세계 데이터에서 흔히 발생하는 결측값 문제를 해결하기 위해 ‘비지도 역전파(Unsupervised Backpropagation, UBP)’라는 새로운 알고리즘을 제안한다. 기존의 대부분 결측값 보간 기법은 선형 모델(행렬 분해)이나 통계적 추정(최대우도, 다중 보간) 등에 의존했으며, 비선형 관계를 충분히 포착하지 못하거나 레이블이 필요하다는 제약이 있었다. UBP는 이러한 제약을 넘어, 완전한 비지도 학습 환경에서도 다층 퍼셉트론(MLP)을 활용해 고차원 데이터의 매니폴드를 학습한다.
핵심 아이디어는 관측된 데이터 X를 출력으로, 잠재 저차원 행렬 V를 입력으로 하는 ‘자기 재구성’ 네트워크를 구성하는 것이다. X는 n×d 형태이며, d는 특성 수, n은 샘플 수이다. V는 n×t 형태이며 t는 d보다 작은 차원이다. 학습 과정은 세 단계로 나뉜다. ① 초기 단계에서는 V를 무작위 혹은 평균값으로 초기화한다. ② 두 번째 단계에서는 현재 V를 고정하고, 알려진 X의 원소만을 사용해 MLP의 가중치 W를 전통적인 역전파 방식으로 최적화한다. ③ 마지막 단계에서는 가중치와 잠재 벡터를 동시에 업데이트한다. 이때 각 알려진 원소 x_{r,c}에 대해 오류 E=(x_{r,c}-\hat{x}_{r,c})^2 를 정의하고, 가중치에 대한 기울기 g와 입력(V)에 대한 기울기 h를 각각 ∂E/∂W와 ∂E/∂v_r 로 계산한다. h는 일반적인 역전파에서는 거의 다루지 않지만, 여기서는 입력 자체를 학습 변수로 삼아 ∂β/∂v_r 를 통해 구한다. 수식 (3)·(4)는 은닉층 유무에 따라 h가 -w·δ 형태로 간단히 표현될 수 있음을 보여준다.
이러한 설계는 두 가지 중요한 장점을 제공한다. 첫째, 비선형 매니폴드 학습이 가능하다. 기존 행렬 분해(MF)는 선형 관계만 포착하지만, UBP는 다중 은닉층과 비선형 활성함수를 통해 복잡한 비선형 구조를 모델링한다. 둘째, 결측값이 존재하는 상황에서도 효율적으로 학습한다. 알려진 원소만을 순차적으로 제시함으로써 ‘온‑라인’ 방식의 스파스 업데이트가 가능하고, 전체 데이터 행렬을 완전하게 복원할 필요가 없다.
실험에서는 24개의 공개 데이터셋에 대해 10%~90%의 결측률을 무작위로 삽입하고, UBP와 비교 대상 5가지 방법(협업 필터링 기반, 행렬 분해, 비선형 PCA, Fuzzy k‑Means 클러스터링, 인스턴스 기반 최근접 이웃) 간의 평균 제곱 오차를 측정했다. 전반적으로 UBP는 모든 결측률 구간에서 가장 낮은 오류를 기록했으며, 특히 30%~70% 구간에서 차이가 크게 나타났다. 또한, 결측값을 보완한 후 9가지 분류기(예: SVM, 랜덤 포레스트, k‑NN 등)를 적용했을 때, UBP 보간 데이터를 사용한 경우 평균 정확도가 다른 방법보다 2~5% 정도 향상되었다.
비교 대상 중 가장 강력한 성능을 보인 것은 행렬 분해와 비선형 PCA였지만, UBP는 이들보다 일관되게 우수했다. 특히 비선형 PCA와 달리 UBP는 3단계 학습 프로세스를 도입해 지역 최적점에 빠지는 위험을 감소시켰으며, 자동으로 저차원 표현 V를 학습한다는 점에서 차별화된다.
한계점으로는 잠재 차원 t의 선택이 성능에 민감하다는 점과, 대규모 데이터셋에서 전체 V와 W를 동시에 업데이트하는 비용이 상대적으로 높을 수 있다는 점을 들 수 있다. 향후 연구에서는 자동 차원 선택, 미니배치 학습, 그리고 앙상블 방식과의 결합을 통해 확장성을 높이는 방안을 제시한다. 또한, 다중 보간(Multiple Imputation)과 결합해 불확실성을 정량화하거나, 딥 오토인코더와의 비교를 통해 더욱 깊은 신경망 구조에서도 효율성을 검증할 필요가 있다.
결론적으로, UBP는 비지도 학습 환경에서 결측값을 효과적으로 보완할 수 있는 강력한 도구이며, 기존 협업 필터링·행렬 분해·비선형 PCA 기반 방법들을 능가한다는 실험적 증거를 제공한다. 이는 데이터 전처리 단계에서 결측값 문제를 해결함으로써, 후속 머신러닝 모델의 성능을 전반적으로 향상시킬 수 있음을 시사한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기